Regex.Replace(Htmlstring, @"<script[^>]*?>.*?</script>", "", RegexOptions.IgnoreCase); 这个是正则替换函数,是一个静态方法并且是一个重载方法,需要四个参数: Regex.Replace(待替换的输入字符串,替换的正则表达式,替换后的文本,正则选项); 第四个参数是:RegexOptions.IgnoreCase,意思是忽略大小写。 对于上面的每一行我就说说是去除字符串中的什么文本的,你的一行对应我的一行: @"<script[^>]*?>.*?</script>"——去除字符串中的脚本,包含内嵌和引用外部的。 @"<(.[^>]*)>"——去除字符串中的html所有标签,如<a>,<div>,</p>等 @"([/r/n])[/s]+"——去除字符串中的所有换行、空格、非打印字符。 @"-->"——去除字符串中的所有注视的结束本分 @"<!--.*"——去除字符串中的所有注视的开始本分及注视 @"&(quot|#34);"——将所有html表示的反斜杠替换为 "/" @"&(amp|#38);"—— 将所有html表示的与符号替换为"&" @"&(lt|#60);",——将所有html表示的小于符号替换为"<" @"&(gt|#62);"—— 将所有html表示的大于符号替换为">" @"&(nbsp|#160);"——将所有html表示的空格符号替换为" " @"&(iexcl|#161);"——将所有html表示的¡符号替换为"/xa1" @"&(cent|#162);"——将所有html表示的¢符号替换为"/xa2" @"&(pound|#163);"—— 将所有html表示的£符号替换为"/xa3" @"&(copy|#169);"—— 将所有html表示的©符号替换为"/xa9" @"&#(/d+);"——去出其他所有不常见的html转移字符 Htmlstring.Replace("<", "");——去出其他所有<字符 Htmlstring.Replace(">", "");——去出其他所有>字符 Htmlstring.Replace("/r/n", "");——去出字符串中的换行。
以下是引用片段:
//清除HTML函数
public static string NoHTML(string Htmlstring)
{
//删除脚本
Htmlstring = Regex.Replace(Htmlstring, @"<script[^>]*?>.*?</script>", "", RegexOptions.IgnoreCase);
//删除HTML
Htmlstring = Regex.Replace(Htmlstring, @"<(.[^>]*)>", "", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"([\r\n])[\s]+", "", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"-->", "", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"<!--.*", "", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"&(quot|#34);", "\"", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"&(amp|#38);", "&", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"&(lt|#60);", "<", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"&(gt|#62);", ">", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"&(nbsp|#160);", " ", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"&(iexcl|#161);", "\xa1", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"&(cent|#162);", "\xa2", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"&(pound|#163);", "\xa3", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"&(copy|#169);", "\xa9", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"&#(\d+);", "", RegexOptions.IgnoreCase);
Htmlstring.Replace("<", "");
Htmlstring.Replace(">", "");
Htmlstring.Replace("\r\n", "");
Htmlstring = HttpContext.Current.Server.HtmlEncode(Htmlstring).Trim();
return Htmlstring;
}