提取HTML代码中文字的C#函数

原创 2006年05月27日 11:16:00

///提取HTML代码中文字的C#函数
/// <summary>
/// 去除HTML标记
/// </summary>
/// <param name="strHtml">包括HTML的源码 </param>
/// <returns>已经去除后的文字</returns>
using System;
using System.Text.RegularExpressions;
public class StripHTMLTest{
  public static void Main(){
    string s=StripHTML("<HTML><HEAD><TITLE>中国石龙信息平台</TITLE></HEAD><BODY>faddfs龙信息平台</BODY></HTML>");
    Console.WriteLine(s);
  }

  public static string StripHTML(string strHtml){
    string [] aryReg ={
          @"<script[^>]*?>.*?</script>",

          @"<(///s*)?!?((/w+:)?/w+)(/w+(/s*=?/s*(([""'])(//[""'tbnr]|[^/7])*?/7|/w+)|.{0})|/s)*?(///s*)?>",
          @"([/r/n])[/s]+",
          @"&(quot|#34);",
          @"&(amp|#38);",
          @"&(lt|#60);",
          @"&(gt|#62);",
          @"&(nbsp|#160);",
          @"&(iexcl|#161);",
          @"&(cent|#162);",
          @"&(pound|#163);",
          @"&(copy|#169);",
          @"&#(/d+);",
          @"-->",
          @"<!--.*/n"
         };

    string [] aryRep = {
           "",
           "",
           "",
           "/"",
           "&",
           "<",
           ">",
           " ",
           "/xa1",//chr(161),
           "/xa2",//chr(162),
           "/xa3",//chr(163),
           "/xa9",//chr(169),
           "",
           "/r/n",
           ""
          };

    string newReg =aryReg[0];
    string strOutput=strHtml;
    for(int i = 0;i<aryReg.Length;i++){
      Regex regex = new Regex(aryReg[i],RegexOptions.IgnoreCase);
      strOutput = regex.Replace(strOutput,aryRep[i]);
    }
    strOutput.Replace("<","");
    strOutput.Replace(">","");
    strOutput.Replace("/r/n","");
    return strOutput;
  }
}

C#提取HTML代码中的文字

C#提取HTML代码中的文字   C#提取HTML代码中的文字   ///    /// 去除HTML标记   ///    /// 包括HTML的源码    /// 已经去除...
  • ncqqbesny
  • ncqqbesny
  • 2013年12月17日 11:03
  • 1743

.net(C#)从html中提取中文字_正则表达式

using System.Text.RegularExpressions;        private string StripHT(string strHtml)  //从html中提取纯文...
  • CsethCRM
  • CsethCRM
  • 2014年12月17日 12:51
  • 1894

C#提取HTML代码中的文字

C#提取HTML代码中的文字   C#提取HTML代码中的文字   ///    /// 去除HTML标记   ///    /// 包括HTML的源码    /// 已经去除...
  • ncqqbesny
  • ncqqbesny
  • 2013年12月17日 11:03
  • 1743

利用正则表达式提取html中的的Email地址

Demo源码如下: Demo下载地址:http://download.csdn.net/detail/zxcvbnm32123/5830571 using System; using System....
  • zxcvbnm32123
  • zxcvbnm32123
  • 2013年07月28日 23:27
  • 1648

C#中使用正则表达式提取超链接地址

一般在做爬虫或者CMS的时候经常需要提取 href链接或者是src地址。此时可以使用正则表达式轻松完成。 方法一: Regex reg = new Regex(@"(?is)]*?href=(['""...
  • hezudao25
  • hezudao25
  • 2013年07月05日 11:39
  • 4453

【正则表达式】C#正则表达式提取HTML中IMG标签的URL地址

一般来说一个 HTML 文档有很多标签,比如“”、“”、“”等,想把文档中的 img 标签提取出来并不是一件容易的事。由于 img 标签样式变化多端,使提取的时候用程序寻找并不容易。于是想要寻找它们就...
  • farcall
  • farcall
  • 2014年06月29日 23:29
  • 942

Java实现从Html文本中提取纯文本

1、应用场景:从一份html文件中或从String(是html内容)中提取纯文本,去掉网页标签; 2、代码一:replaceAll搞定 //从html中提取纯文本 public static ...
  • fjssharpsword
  • fjssharpsword
  • 2016年12月05日 17:04
  • 8608

一种提取HTML网页正文的方法

这里所说的正文提取主要是针对新闻页面等网页的主体是文字的HTML页面。在做一些与文本处理相关的实验时往往需要大量的文本,虽然网络上已经存在了一些开放数据集如搜狗语料库,但是有的时候也需要根据具体的需求...
  • SeaTomorrow
  • SeaTomorrow
  • 2015年09月12日 13:39
  • 6166

【Python编程】网页中文提取正则

由于 需求原因,需要匹配网页提取中文,大量google下,并没有我需要的。花了一个小时大概测试,此utf8中文通过,特留文。    参考: http://hi.baidu.com/nivrrex/b...
  • jiayanhui2877
  • jiayanhui2877
  • 2014年02月26日 12:03
  • 3770

从HTML源代码和页面正文中提取特征向量

一、从样本页面的HTML源代码中提取特征向量 1、从HTML源代码中提取预设标签的数量     页面的HTML源代码中存在不同的Tag标签,服务器可以对这些标签的数量进行统计,获得钓鱼网站的特征向...
  • jcchri
  • jcchri
  • 2016年09月06日 10:23
  • 739
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:提取HTML代码中文字的C#函数
举报原因:
原因补充:

(最多只允许输入30个字)