c#正则过滤html,c#中过滤html的正则表达式

创新先锋

于 2021-06-01 00:48:42 发布

阅读量180

点赞数

文章标签： c#正则过滤html

实现代码

/// /// 去除HTML标记

///

/// 包括HTML的源码

/// 已经去除后的文字

public static string NoHTML(string Htmlstring)

{

//删除脚本

Htmlstring = Regex.Replace(Htmlstring, @"", "",

RegexOptions.IgnoreCase);

//删除HTML

Htmlstring = Regex.Replace(Htmlstring, @"]*)>", "",

RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring, @"([\r\n])[\s]+", "",

RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring, @"�C>", "", RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring, @"",

RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring, @"&(nbsp|#160);", " ",

RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring, @"&(iexcl|#161);", "\xa1", RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring, @"&(cent|#162);", "\xa2", RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring, @"&(pound|#163);", "\xa3", RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring, @"&(copy|#169);", "\xa9", RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring, @"(\d+);", "", RegexOptions.IgnoreCase);

Htmlstring.Replace("", "");

Htmlstring.Replace("\r\n", "");

Htmlstring = HttpContext.Current.Server.HtmlEncode(Htmlstring).Trim();

return Htmlstring;

}

C#过滤Html标签及空格

public static string FilterHTML(string HTMLStr)

{

if (!string.IsNullOrEmpty(HTMLStr))

return System.Text.RegularExpressions.Regex.Replace(HTMLStr, "]*>| ", "");

else

return "";

}

写一个静态方法移除HTML标签

#region

/// /// 移除HTML标签

///

/// HTMLStr

public static string ParseTags(string HTMLStr)

{

return System.Text.RegularExpressions.Regex.Replace(HTMLStr, "]*>", "");

}

#endregion

取出文本中的图片地址

#region

/// /// 取出文本中的图片地址

///

/// HTMLStr

public static string GetImgUrl(string HTMLStr)

{

string str = string.Empty;

string sPattern = @"^

1175984709960806400.htm ]*>";

Regex r = new Regex(@"

1175984709960806400.htm ]*\s*src\s*=\s*([']?)(?\S+)'?[^>]*>",

RegexOptions.Compiled);

Match m = r.Match(HTMLStr.ToLower());

if (m.Success)

str = m.Result("${url}");

return str;

}

#endregion

提取HTML代码中文字的C#函数

/// /// 提取HTML代码中文字的C#函数

///

/// 包括HTML的源码

/// 已经去除后的文字

using System;

using System.Text.RegularExpressions;

public class StripHTMLTest

{

public static void Main()

{

string s = StripHTML(

"中国石龙信息平台faddfs龙信息平台");

Console.WriteLine(s);

}

public static string StripHTML(string strHtml)

{

string[]aryReg =

{

@"",

@"", @"([\r\n])[\s]+", @

"&(quot|#34);", @"&(amp|#38);", @"&(lt|#60);", @"&(gt|#62);", @

"&(nbsp|#160);", @"&(iexcl|#161);", @"&(cent|#162);", @"&(pound|#163);",

@"&(copy|#169);", @"(\d+);", @"-->", @"

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
c#正则过滤html,c#中过滤html的正则表达式

实现代码/// /// 去除HTML标记////// 包括HTML的源码/// 已经去除后的文字public static string NoHTML(string Htmlstring){//删除脚本Htmlstring = Regex.Replace(Htmlstring, @"", "",RegexOptions.IgnoreCase);//删除HTMLHtmlstring = Re...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。