[转]提取HTML代码中文字的C#函数

原创 2005年03月01日 09:19:00

/// <summary>
  /// 去除HTML标记
  /// </summary>
  /// <param name="strHtml">包括HTML的源码 </param>
  /// <returns>已经去除后的文字</returns>
  public static string StripHTML(string strHtml)
  {
   string [] aryReg ={
          @"<script[^>]*?>.*?</script>",

          @"<(///s*)?!?((/w+:)?/w+)(/w+(/s*=?/s*(([""'])(//[""'tbnr]|[^/7])*?/7|/w+)|.{0})|/s)*?(///s*)?>",
          @"([/r/n])[/s]+",
          @"&(quot|#34);",
          @"&(amp|#38);",
          @"&(lt|#60);",
          @"&(gt|#62);",
          @"&(nbsp|#160);",
          @"&(iexcl|#161);",
          @"&(cent|#162);",
          @"&(pound|#163);",
          @"&(copy|#169);",
          @"&#(/d+);",
          @"-->",
          @"<!--.*/n"
        
         };

   string [] aryRep = {
           "",
           "",
           "",
           "/"",
           "&",
           "<",
           ">",
           " ",
           "/xa1",//chr(161),
           "/xa2",//chr(162),
           "/xa3",//chr(163),
           "/xa9",//chr(169),
           "",
           "/r/n",
           ""
          };

   string newReg =aryReg[0];
   string strOutput=strHtml;
   for(int i = 0;i<aryReg.Length;i++)
   {
    Regex regex = new Regex(aryReg[i],RegexOptions.IgnoreCase );
    strOutput = regex.Replace(strOutput,aryRep[i]);
   }

   strOutput.Replace("<","");
   strOutput.Replace(">","");
   strOutput.Replace("/r/n","");


   return strOutput;
  }

 

C#提取HTML代码中的文字

C#提取HTML代码中的文字///   /// 去除HTML标记  ///   /// 包括HTML的源码   /// 已经去除后的文字  public static string StripHTML...
  • dingbaosheng
  • dingbaosheng
  • 2006-03-14 22:46:00
  • 1100

使用C#将HTML文本转换为普通文本,去掉所有的Html标记

using System; using System.Collections.Generic; using System.Linq; using System.Text; //...
  • my98800
  • my98800
  • 2016-12-06 09:03:27
  • 301

C#---HTML 转文本及HTML内容提取

//1、HTML直接转文本 //使用方法 HtmlToText convert = new HtmlToText(); textBox2.Text = convert.Convert(textB...
  • cjh200102
  • cjh200102
  • 2011-09-27 09:43:01
  • 10401

利用HtmlParse获取Html内容并提取

一.      网上获取html内容 1.利用url获取html内容: public static String getHtmlContent(String urlstr){ /*思路: 1...
  • u010666884
  • u010666884
  • 2015-12-10 17:55:27
  • 3780

Java实现从Html文本中提取纯文本

1、应用场景:从一份html文件中或从String(是html内容)中提取纯文本,去掉网页标签; 2、代码一:replaceAll搞定 //从html中提取纯文本 public static ...
  • fjssharpsword
  • fjssharpsword
  • 2016-12-05 17:04:10
  • 10213

提取HTML代码中文字的C#函数

///   /// 去除HTML标记  ///   /// 包括HTML的源码   /// 已经去除后的文字  public static string StripHTML(string strHtm...
  • liyingju
  • liyingju
  • 2007-05-30 10:37:00
  • 480

提取HTML代码中文字的C#函数

///   /// 去除HTML标记  ///   /// 包括HTML的源码   /// 已经去除后的文字  public static string StripHTML(string strHtm...
  • powerboy
  • powerboy
  • 2007-11-06 12:42:00
  • 298

从html富文本中提取纯文本

其实从html富文本中提取纯文本很简单,富文本基本上是使用html标签给文本加上丰富多彩的样式。 所以只需要将富文本字符串中的“”标签剔除,即可得到纯文本。我们可以使用正则表达式,来匹配所有的htm...
  • lkx94
  • lkx94
  • 2014-12-12 09:45:51
  • 5836

一种提取HTML网页正文的方法

这里所说的正文提取主要是针对新闻页面等网页的主体是文字的HTML页面。在做一些与文本处理相关的实验时往往需要大量的文本,虽然网络上已经存在了一些开放数据集如搜狗语料库,但是有的时候也需要根据具体的需求...
  • SeaTomorrow
  • SeaTomorrow
  • 2015-09-12 13:39:32
  • 6943

从HTML代码中提取文字,去掉HTML的标记

public static string NoHTML(string Htmlstring)     {         //删除脚本         Htmlstring = Regex.Re...
  • jing_xin
  • jing_xin
  • 2014-08-08 11:31:13
  • 1623
收藏助手
不良信息举报
您举报文章:[转]提取HTML代码中文字的C#函数
举报原因:
原因补充:

(最多只允许输入30个字)