asp.net如何去掉HTML标记

  1.  ///   <summary>
  2. ///   去除HTML标记
  3. ///   </summary>
  4. ///   <param   name="NoHTML">包括HTML的源码   </param>
  5. ///   <returns>已经去除后的文字</returns>  
  6.   public   static   string   NoHTML(string   Htmlstring)
  7. {
  8. //删除脚本  
  9.   Htmlstring   =   Regex.Replace(Htmlstring,@"<script[^>]*?>.*?</script>","",RegexOptions.IgnoreCase);
  10. //删除HTML  
  11.   Htmlstring   =   Regex.Replace(Htmlstring,@"<(.[^>]*)>","",RegexOptions.IgnoreCase);
  12. Htmlstring   =   Regex.Replace(Htmlstring,@"([/r/n])[/s]+","",RegexOptions.IgnoreCase);
  13. Htmlstring   =   Regex.Replace(Htmlstring,@"-->","",RegexOptions.IgnoreCase);
  14. Htmlstring   =   Regex.Replace(Htmlstring,@"<!--.*","",RegexOptions.IgnoreCase);
  15. Htmlstring   =   Regex.Replace(Htmlstring,@"&(quot|#34);","/"",RegexOptions.IgnoreCase);
  16. Htmlstring   =   Regex.Replace(Htmlstring,@"&(amp|#38);","&",RegexOptions.IgnoreCase);
  17. Htmlstring   =   Regex.Replace(Htmlstring,@"&(lt|#60);","<",RegexOptions.IgnoreCase);
  18. Htmlstring   =   Regex.Replace(Htmlstring,@"&(gt|#62);",">",RegexOptions.IgnoreCase);
  19. Htmlstring   =   Regex.Replace(Htmlstring,@"&(nbsp|#160);","   ",RegexOptions.IgnoreCase);
  20. Htmlstring   =   Regex.Replace(Htmlstring,@"&(iexcl|#161);","/xa1",RegexOptions.IgnoreCase);
  21. Htmlstring   =   Regex.Replace(Htmlstring,@"&(cent|#162);","/xa2",RegexOptions.IgnoreCase);
  22. Htmlstring   =   Regex.Replace(Htmlstring,@"&(pound|#163);","/xa3",RegexOptions.IgnoreCase);
  23. Htmlstring   =   Regex.Replace(Htmlstring,@"&(copy|#169);","/xa9",RegexOptions.IgnoreCase);
  24. Htmlstring   =   Regex.Replace(Htmlstring,   @"&#(/d+);","",RegexOptions.IgnoreCase);
  25. Htmlstring.Replace("<","");
  26. Htmlstring.Replace(">","");
  27. Htmlstring.Replace("/r/n","");
  28. Htmlstring=HttpContext.Current.Server.HtmlEncode(Htmlstring).Trim();
  29. return   Htmlstring;
  30. }
  31.  
  32.  ///提取HTML代码中文字的C#函数
  33. ///   <summary>
  34. ///   去除HTML标记
  35. ///   </summary>
  36. ///   <param   name="strHtml">包括HTML的源码   </param>
  37. ///   <returns>已经去除后的文字</returns>  
  38.   using   System;
  39. using   System.Text.RegularExpressions;
  40. public   class   StripHTMLTest{
  41. public   static   void   Main(){
  42. string   s=StripHTML("<HTML><HEAD><TITLE>中国石龙信息平台</TITLE></HEAD><BODY>faddfs龙信息平台</BODY></HTML>");
  43. Console.WriteLine(s);
  44. }
  45. public   static   string   StripHTML(string   strHtml){
  46. string   []   aryReg   ={
  47. @"<script[^>]*?>.*?</script>",
  48. @"<(///s*)?!?((/w+:)?/w+)(/w+(/s*=?/s*(([""'])(//[""'tbnr]|[^/7])*?/7|/w+)|.{0})|/s)*?(///s*)?>",
  49. @"([/r/n])[/s]+",
  50. @"&(quot|#34);",
  51. @"&(amp|#38);",
  52. @"&(lt|#60);",
  53. @"&(gt|#62);",
  54. @"&(nbsp|#160);",
  55. @"&(iexcl|#161);",
  56. @"&(cent|#162);",
  57. @"&(pound|#163);",
  58. @"&(copy|#169);",
  59. @"&#(/d+);",
  60. @"-->",
  61. @"<!--.*/n"
  62. };
  63. string   []   aryRep   =   {
  64. "",
  65. "",
  66. "",
  67. "/"",
  68. "&",
  69. "<",
  70. ">",
  71. "   ",
  72. "/xa1",//chr(161),  
  73.                         "/xa2",//chr(162),  
  74.                         "/xa3",//chr(163),  
  75.                         "/xa9",//chr(169),  
  76.                         "",
  77. "/r/n",
  78. ""
  79. };
  80. string   newReg   =aryReg[0];
  81. string   strOutput=strHtml;
  82. for(int   i   =   0;i<aryReg.Length;i++){
  83. Regex   regex   =   new   Regex(aryReg[i],RegexOptions.IgnoreCase);
  84. strOutput   =   regex.Replace(strOutput,aryRep[i]);
  85. }
  86. strOutput.Replace("<","");
  87. strOutput.Replace(">","");
  88. strOutput.Replace("/r/n","");
  89. return   strOutput;
  90. }
  91. }

  1.  写一个静态方法
  2. 移除HTML标签
  3. #region   移除HTML标签   
  4. /**////   <summary>
  5. ///   移除HTML标签
  6. ///   </summary>
  7. ///   <param   name="HTMLStr">HTMLStr</param>   
  8.   public   static   string     ParseTags(string   HTMLStr)
  9. {
  10. return   System.Text.RegularExpressions.Regex.Replace(HTMLStr,   "<[^>]*>",   "");
  11. }
  12. #endregion   
  13. 取出文本中的图片地址#region   取出文本中的图片地址   
  14. /**////   <summary>
  15. ///   取出文本中的图片地址
  16. ///   </summary>
  17. ///   <param   name="HTMLStr">HTMLStr</param>   
  18.                   public   static   string   GetImgUrl(string   HTMLStr)
  19. {
  20. string   str   =   string.Empty;
  21. string   sPattern   =   @"^<img/s+[^>]*>";
  22. Regex   r   =   new   Regex(@"<img/s+[^>]*/s*src/s*=/s*([']?)(?<url>/S+)'?[^>]*>",
  23. RegexOptions.Compiled);
  24. Match   m   =   r.Match(HTMLStr.ToLower());
  25. if   (m.Success)
  26. str   =   m.Result("${url}");
  27. return   str;
  28. }
  29. #endregion 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值