asp.net如何去掉HTML标记

最新推荐文章于 2021-06-03 03:14:23 发布

lee576

最新推荐文章于 2021-06-03 03:14:23 发布

阅读量949

点赞数

分类专栏： Asp.Net 文章标签： html asp.net string 平台脚本 c#

Asp.Net 专栏收录该内容

339 篇文章 0 订阅

订阅专栏

 ///   <summary>
///   去除HTML标记
///   </summary>
///   <param   name="NoHTML">包括HTML的源码   </param>
///   <returns>已经去除后的文字</returns>  
  public   static   string   NoHTML(string   Htmlstring)
{
//删除脚本  
  Htmlstring   =   Regex.Replace(Htmlstring,@"<script[^>]*?>.*?</script>","",RegexOptions.IgnoreCase);
//删除HTML  
  Htmlstring   =   Regex.Replace(Htmlstring,@"<(.[^>]*)>","",RegexOptions.IgnoreCase);
Htmlstring   =   Regex.Replace(Htmlstring,@"([/r/n])[/s]+","",RegexOptions.IgnoreCase);
Htmlstring   =   Regex.Replace(Htmlstring,@"-->","",RegexOptions.IgnoreCase);
Htmlstring   =   Regex.Replace(Htmlstring,@"<!--.*","",RegexOptions.IgnoreCase);
Htmlstring   =   Regex.Replace(Htmlstring,@"&(quot|#34);","/"",RegexOptions.IgnoreCase);
Htmlstring   =   Regex.Replace(Htmlstring,@"&(amp|#38);","&",RegexOptions.IgnoreCase);
Htmlstring   =   Regex.Replace(Htmlstring,@"&(lt|#60);","<",RegexOptions.IgnoreCase);
Htmlstring   =   Regex.Replace(Htmlstring,@"&(gt|#62);",">",RegexOptions.IgnoreCase);
Htmlstring   =   Regex.Replace(Htmlstring,@"&(nbsp|#160);","   ",RegexOptions.IgnoreCase);
Htmlstring   =   Regex.Replace(Htmlstring,@"&(iexcl|#161);","/xa1",RegexOptions.IgnoreCase);
Htmlstring   =   Regex.Replace(Htmlstring,@"&(cent|#162);","/xa2",RegexOptions.IgnoreCase);
Htmlstring   =   Regex.Replace(Htmlstring,@"&(pound|#163);","/xa3",RegexOptions.IgnoreCase);
Htmlstring   =   Regex.Replace(Htmlstring,@"&(copy|#169);","/xa9",RegexOptions.IgnoreCase);
Htmlstring   =   Regex.Replace(Htmlstring,   @"&#(/d+);","",RegexOptions.IgnoreCase);
Htmlstring.Replace("<","");
Htmlstring.Replace(">","");
Htmlstring.Replace("/r/n","");
Htmlstring=HttpContext.Current.Server.HtmlEncode(Htmlstring).Trim();
return   Htmlstring;
}
 
 ///提取HTML代码中文字的C#函数
///   <summary>
///   去除HTML标记
///   </summary>
///   <param   name="strHtml">包括HTML的源码   </param>
///   <returns>已经去除后的文字</returns>  
  using   System;
using   System.Text.RegularExpressions;
public   class   StripHTMLTest{
public   static   void   Main(){
string   s=StripHTML("<HTML><HEAD><TITLE>中国石龙信息平台</TITLE></HEAD><BODY>faddfs龙信息平台</BODY></HTML>");
Console.WriteLine(s);
}
public   static   string   StripHTML(string   strHtml){
string   []   aryReg   ={
@"<script[^>]*?>.*?</script>",
@"<(///s*)?!?((/w+:)?/w+)(/w+(/s*=?/s*(([""'])(//[""'tbnr]|[^/7])*?/7|/w+)|.{0})|/s)*?(///s*)?>",
@"([/r/n])[/s]+",
@"&(quot|#34);",
@"&(amp|#38);",
@"&(lt|#60);",
@"&(gt|#62);",
@"&(nbsp|#160);",
@"&(iexcl|#161);",
@"&(cent|#162);",
@"&(pound|#163);",
@"&(copy|#169);",
@"&#(/d+);",
@"-->",
@"<!--.*/n"
};
string   []   aryRep   =   {
"",
"",
"",
"/"",
"&",
"<",
">",
"   ",
"/xa1",//chr(161),  
                        "/xa2",//chr(162),  
                        "/xa3",//chr(163),  
                        "/xa9",//chr(169),  
                        "",
"/r/n",
""
};
string   newReg   =aryReg[0];
string   strOutput=strHtml;
for(int   i   =   0;i<aryReg.Length;i++){
Regex   regex   =   new   Regex(aryReg[i],RegexOptions.IgnoreCase);
strOutput   =   regex.Replace(strOutput,aryRep[i]);
}
strOutput.Replace("<","");
strOutput.Replace(">","");
strOutput.Replace("/r/n","");
return   strOutput;
}
}

 
   写一个静态方法
移除HTML标签
#region   移除HTML标签   
/**////   <summary>
///   移除HTML标签
///   </summary>
///   <param   name="HTMLStr">HTMLStr</param>   
  public   static   string     ParseTags(string   HTMLStr)
{
return   System.Text.RegularExpressions.Regex.Replace(HTMLStr,   "<[^>]*>",   "");
}
#endregion   
取出文本中的图片地址#region   取出文本中的图片地址   
/**////   <summary>
///   取出文本中的图片地址
///   </summary>
///   <param   name="HTMLStr">HTMLStr</param>   
                  public   static   string   GetImgUrl(string   HTMLStr)
{
string   str   =   string.Empty;
string   sPattern   =   @"^<img/s+[^>]*>";
Regex   r   =   new   Regex(@"<img/s+[^>]*/s*src/s*=/s*([']?)(?<url>/S+)'?[^>]*>",
RegexOptions.Compiled);
Match   m   =   r.Match(HTMLStr.ToLower());
if   (m.Success)
str   =   m.Result("${url}");
return   str;
}
#endregion 
 
 

lee576

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
asp.net如何去掉HTML标记

/// /// 去除HTML标记/// /// 包括HTML的源码 /// 已经去除后的文字 public static string NoHTML(string Htmlstring){//删除脚本 Htmlstring = Regex.Replace(Htmlstring,@"]*?>.*?","",RegexOptions.Ign
复制链接

扫一扫

专栏目录