提取HTML代码中文字的C#函数

/// <summary> 

 /// 去除HTML标记 

 /// </summary> 

 /// <param name=&quot;strHtml&quot;>包括HTML的源码 </param> 

/// <returns>已经去除后的文字</returns> 

public static string StripHTML(string strHtml) 

 { 

string [] aryReg ={   

       @&quot;<script[^>]*?>.*?</script>&quot;,      

     @&quot;<(///s*)?!?((/w+:)?/w+)(/w+(/s*=?/s*(([&quot;&quot;'])(&quot">//[&quot;&quot;'tbnr]|[^/7])*?/7|/w+)|.{0})|/s)*?(///s*)?>&quot;,        

  @&quot;([/r/n])[/s]+&quot;,         

@&quot;&amp;(quot|#34);&quot;,         

 @&quot;&amp;(amp|#38);&quot;,         

@&quot;&amp;(lt|#60);&quot;,         

@&quot;&amp;(gt|#62);&quot;,          

@&quot;&amp;(nbsp|#160);&quot;,          

@&quot;&amp;(iexcl|#161);&quot;,         

@&quot;&amp;(cent|#162);&quot;,         

 @&quot;&amp;(pound|#163);&quot;,         

 @&quot;&amp;(copy|#169);&quot;,         

@&quot;&amp;#(/d+);&quot;,         

 @&quot;-->&quot;,        

  @&quot;<!--.*/n&quot;                }; 

string [] aryRep = {         

 &quot;&quot;,         

&quot;&quot;,         

&quot;&quot;,         

&quot;/&quot;&quot;,         

 &quot;&amp;&quot;,         

&quot;<&quot;,         

&quot;>&quot;,         

&quot; &quot;,         

&quot;/xa1&quot;,//chr(161),         

&quot;/xa2&quot;,//chr(162),         

 &quot;/xa3&quot;,//chr(163),         

 &quot;/xa9&quot;,//chr(169),         

&quot;&quot;,         

&quot;/r/n&quot;,         

&quot;&quot;          }; 

string newReg =aryReg[0]; 

 string strOutput=strHtml; 

 for(int i = 0;i<aryReg.Length;i++)  {   

 Regex regex = new Regex(aryReg[i],RegexOptions.IgnoreCase );   

strOutput = regex.Replace(strOutput,aryRep[i]);  } 

strOutput.Replace(&quot;<&quot;,&quot;&quot;); 

strOutput.Replace(&quot;>&quot;,&quot;&quot;); 

strOutput.Replace(&quot;/r/n&quot;,&quot;&quot;);  

return strOutput;  }

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值