一个用C#过滤HTML代码的函数

最新推荐文章于 2018-09-28 20:38:00 发布

CodingSir

最新推荐文章于 2018-09-28 20:38:00 发布

阅读量807

点赞数

文章标签： html c# regex 正则表达式 javascript string

本文链接：https://blog.csdn.net/educast/article/details/2894927

版权

正好有时间所以用 C#写了一段 正则表达式,作用是删除 Page 里面Code 中的 HTML标签,这在做采集信息,消除其中的HTML很有用处。

以下是引用片段：
public string checkStr(string html)
       {
           System.Text.RegularExpressions.Regex regex1 = new System.Text.RegularExpressions.Regex(@"<script[/s/S]+            System.Text.RegularExpressions.Regex regex2 = new System.Text.RegularExpressions.Regex(@" href *= *[/s/S]*script *:", System.Text.RegularExpressions.RegexOptions.IgnoreCase);
           System.Text.RegularExpressions.Regex regex3 = new System.Text.RegularExpressions.Regex(@" no[/s/S]*=", System.Text.RegularExpressions.RegexOptions.IgnoreCase);
           System.Text.RegularExpressions.Regex regex4 = new System.Text.RegularExpressions.Regex(@"[/s/S]+", System.Text.RegularExpressions.RegexOptions.IgnoreCase);
           System.Text.RegularExpressions.Regex regex5 = new System.Text.RegularExpressions.Regex(@" ", System.Text.RegularExpressions.RegexOptions.IgnoreCase);
           System.Text.RegularExpressions.Regex regex6 = new System.Text.RegularExpressions.Regex(@"/ ]+/>", System.Text.RegularExpressions.RegexOptions.IgnoreCase);
           System.Text.RegularExpressions.Regex regex7 = new System.Text.RegularExpressions.Regex(@"

", System.Text.RegularExpressions.RegexOptions.IgnoreCase);
System.Text.RegularExpressions.Regex regex8 = new System.Text.RegularExpressions.Regex(@"

", System.Text.RegularExpressions.RegexOptions.IgnoreCase);
System.Text.RegularExpressions.Regex regex9 = new System.Text.RegularExpressions.Regex(@"<[^>]*>", System.Text.RegularExpressions.RegexOptions.IgnoreCase);
html = regex1.Replace(html, ""); //过滤