正则表达式获取HTML标记中的内容(C#)

转载 2014年05月18日 20:46:59

正则表达式获取HTML标记中的内容(C#)

//=====================Begin1========================
            
//试验字符串
            string strTmp = string.Empty;
            
//正则表达式
            string tmpStr = string.Empty;

            
//取出指定HTML标记中的匹配项的值RegexOptions.IgnoreCase忽略大小写,RegexOptions.Multiline忽略多行显示,
            
//tmpStr = "<title>([^<]*)</title>"        //获取<title>之间内容

             strTmp 
= @"<add key='ConnectionString' value='server=localhost;database=数据库名;uid=sa;pwd=;pooling=true'/>";
            
//获取“database=”与“;”号之间的字符串:database=(.*);
             tmpStr = "database=([^;]*);";
             Match TitleMatch 
= Regex.Match(strTmp, tmpStr ,RegexOptions.IgnoreCase | RegexOptions.Multiline );

            
//如下例子作语法参考用获取size的值,实际应用可能不会如此复杂
             strTmp = "><font color='red'   size=6>WebForm3</font><" ;
             tmpStr 
= @"<(w+s+w+[=]+[']+w+[']+s+[size=]+d)>";
             Match TitleMatch 
= Regex.Match(strTmp ,tmpStr , RegexOptions.IgnoreCase | RegexOptions.Multiline );
            

            
//取出匹配项的值
            string tmpStrTitle = TitleMatch.Groups[1].Value;
            
//替换掉HTML页中所有HTML标记
             Label1.Text=Regex.Replace(Label1.Text.Trim(),"<.+?>","")+"*********"+TitleMatch.Groups[1].Value;

            
//判断匹配正则表达式是否成功
            if(Regex.Match(tmpStr,"<.+?>").Success)
            
{
                
//操作
             }

            
//=====================End1========================

            
//=====================Begin2========================
            string webDocContent="<a href=http://www.xxx.xxx/college/pages/default.htm target=_blank>师资队伍</A>";
            
//解释下面正则表达式:[s]表示匹配空格字符,"+" 表示连接
            string strPattern=@"a[s]+href=(?<Link>[^s>]+)[^>]*>(?<Text>[^<]*)</a>";
            
//获取链接显示的文字
             MatchCollection Matches=Regex.Matches(webDocContent,strPattern,RegexOptions.IgnoreCase|RegexOptions.Compiled);
            
foreach(Match NextMatch in Matches)
            
{
                
string URL=NextMatch.Groups["Link"].Value.ToString().Trim();
                
string URLText=NextMatch.Groups["Text"].Value.ToString().Trim();
                 Response.Write(URL
+"****");
                 Response.Write(URLText);
             }

            
//=====================End2========================

            
//=====================Begin3========================
            string strPageContent = string.Empty;
             StreamReader srPage 
= new StreamReader(@"e:save.txt",System.Text.Encoding.GetEncoding("gb2312"));
             strPageContent 
= srPage.ReadToEnd();
             srPage.Close();
            
//(/s)*表示0或多个空格符、回车符等,*表示比配0或多个。(.*?)表示除回车符外的所有信息
             MatchCollection TitleMatchs = Regex.Matches(strPageContent, "<td width="85%" class="common_text">((/s)*(.*?)(/s)*(.*?)(/s)*(.*?)(/s)*(.*?)(/s)*)</td>", RegexOptions.IgnoreCase | RegexOptions.Multiline );
            
int tmpNum = 0;
            
//循环正则表达式所获取的,满足表达式的内容集合
            foreach(Match NextMatch in TitleMatchs)
            
{
                
++tmpNum;
                 Label1.Text 
+= tmpNum + "<br>****" + NextMatch.Groups[1].Value;
             }

            
//=====================End3========================

正则表达式获取HTML标记innerHTML

// Regex match RegexOptions options = RegexOptions.None; Regex regex = new R...
  • greystar
  • greystar
  • 2015年06月02日 10:45
  • 2915

C#正则表达式 解析html+table tr td 内容

aspx页面获取方法:    var tbZHXX = GetWorldexWyHtml(s, @"id=""tbZHXX""", @"class=""GridCommonItem""", "Worl...
  • kongwei521
  • kongwei521
  • 2017年05月01日 08:51
  • 2217

使用正则表达式匹配嵌套Html标签

正则表达式是做文本解析工作必不可少的技能。如Web服务器日志分析,网页前端开发等。很多高级文本编辑器都支持正则表达式的一个子集,熟练掌握正则表达式,经常能够使你的一些工作事半功倍。例如统计代码行数,只...
  • greystar
  • greystar
  • 2015年06月01日 14:45
  • 7548

C# .Net使用正则表达式去除HTML标记和空格

using System.Text.RegularExpressions; 在进行数据采集,显示文章摘要,内容计数等情况下,需要清除源代码中的html标签,空格,style,script等标签. ...
  • atco
  • atco
  • 2012年02月24日 11:25
  • 5935

正则表达式获取HTML标记innerHTML

// Regex match RegexOptions options = RegexOptions.None; Regex regex = new R...
  • greystar
  • greystar
  • 2015年06月02日 10:45
  • 2915

正则表达式相关:C# RichTextBox显示html文本内容

这两天做了一个功能,需要将抓取到的网页html中的文本按格式显示在richtextbox中。可是richtextbox不识别html标签。本打算自己写个html解释器,但是需要花费时间太多了。既然是个...
  • yysyangyangyangshan
  • yysyangyangyangshan
  • 2012年04月12日 17:19
  • 6934

用正则表达式剔除文本中的HTML标记

====================================================== 注:本文源代码点此下载 =============================...
  • javazhuanzai
  • javazhuanzai
  • 2012年02月01日 03:35
  • 166

使用Java正则表达式匹配、替换HTML内容

本文向您介绍使用Java正则表达式匹配和替换HTML的内容,作者介绍了两种方法,一种用于替换链接地址,一种用于替换图片。 AD:【活动】Web和APP兼容性实战 Win10训练营免费报名 ...
  • w_j_w2010
  • w_j_w2010
  • 2015年11月24日 16:11
  • 1718

java根据 正则表达式解析html网页内容

仅供参考: import java.io.DataInputStream; import java.io.File; import java.io.FileOutputStream; import ...
  • qq_27292113
  • qq_27292113
  • 2017年05月25日 12:15
  • 1448

正则表达式提取html内容

很多时候我们想从一段html中找到需要的。 比如有一段html Code Code highlighting produced by Actipro CodeHighlighter ...
  • wustzbq0713
  • wustzbq0713
  • 2015年06月07日 21:57
  • 243
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:正则表达式获取HTML标记中的内容(C#)
举报原因:
原因补充:

(最多只允许输入30个字)