[转]提取HTML代码中文字的C#函数

原创 2005年03月01日 09:19:00

/// <summary>
  /// 去除HTML标记
  /// </summary>
  /// <param name="strHtml">包括HTML的源码 </param>
  /// <returns>已经去除后的文字</returns>
  public static string StripHTML(string strHtml)
  {
   string [] aryReg ={
          @"<script[^>]*?>.*?</script>",

          @"<(///s*)?!?((/w+:)?/w+)(/w+(/s*=?/s*(([""'])(//[""'tbnr]|[^/7])*?/7|/w+)|.{0})|/s)*?(///s*)?>",
          @"([/r/n])[/s]+",
          @"&(quot|#34);",
          @"&(amp|#38);",
          @"&(lt|#60);",
          @"&(gt|#62);",
          @"&(nbsp|#160);",
          @"&(iexcl|#161);",
          @"&(cent|#162);",
          @"&(pound|#163);",
          @"&(copy|#169);",
          @"&#(/d+);",
          @"-->",
          @"<!--.*/n"
        
         };

   string [] aryRep = {
           "",
           "",
           "",
           "/"",
           "&",
           "<",
           ">",
           " ",
           "/xa1",//chr(161),
           "/xa2",//chr(162),
           "/xa3",//chr(163),
           "/xa9",//chr(169),
           "",
           "/r/n",
           ""
          };

   string newReg =aryReg[0];
   string strOutput=strHtml;
   for(int i = 0;i<aryReg.Length;i++)
   {
    Regex regex = new Regex(aryReg[i],RegexOptions.IgnoreCase );
    strOutput = regex.Replace(strOutput,aryRep[i]);
   }

   strOutput.Replace("<","");
   strOutput.Replace(">","");
   strOutput.Replace("/r/n","");


   return strOutput;
  }

 

版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

C#中RichTextBox中文字的上标或下标表示设定

下面介绍一下在RichTextBox设定上标和下标的SelectionCharOffset属性。SelectionCharOffset属性是以字符串表示正常基准线为准, 进行画素的设定。想表示为上标时...

cocos2d-x实现文字输入框以及字符串中文字的提取

Focus_凯 个人原创,欢迎转载,转载请注明地址。Focus_凯的专栏地址http://blog.csdn.net/focusdeveloper 今天分享下如何做一个聊天窗口的文字输入框并且在其...

c# html代码转pdf

public class htmlToPDFHelper { #region 使用wkhtmltopdf.exe组建转换htmlToPDFHelper //...

文字和图片居中的HTML代码怎么写?

HTML 代码 ,怎么将文本/ 图片居中?这是在W3Cschool的编程问答中前端♌蕾儿提出的问题。网友施主同西否给出了详细的解答。 html文字居中和html图片居中方法代码,通过在html中实现文...

android中的布局(四) 更改程序中文字的字体

我们在很多时候  我们在做程序的时候 需要把我们程序中的某些文字更改一下字体以满足我们自己程序的需要  但是我们知道  在android系统中 他仅仅只支持那么几个字体  而且有些还是对中文没效果  ...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)