提取HTML代码中文字的C#函数

原创 2006年05月27日 11:16:00

///提取HTML代码中文字的C#函数
/// <summary>
/// 去除HTML标记
/// </summary>
/// <param name="strHtml">包括HTML的源码 </param>
/// <returns>已经去除后的文字</returns>
using System;
using System.Text.RegularExpressions;
public class StripHTMLTest{
  public static void Main(){
    string s=StripHTML("<HTML><HEAD><TITLE>中国石龙信息平台</TITLE></HEAD><BODY>faddfs龙信息平台</BODY></HTML>");
    Console.WriteLine(s);
  }

  public static string StripHTML(string strHtml){
    string [] aryReg ={
          @"<script[^>]*?>.*?</script>",

          @"<(///s*)?!?((/w+:)?/w+)(/w+(/s*=?/s*(([""'])(//[""'tbnr]|[^/7])*?/7|/w+)|.{0})|/s)*?(///s*)?>",
          @"([/r/n])[/s]+",
          @"&(quot|#34);",
          @"&(amp|#38);",
          @"&(lt|#60);",
          @"&(gt|#62);",
          @"&(nbsp|#160);",
          @"&(iexcl|#161);",
          @"&(cent|#162);",
          @"&(pound|#163);",
          @"&(copy|#169);",
          @"&#(/d+);",
          @"-->",
          @"<!--.*/n"
         };

    string [] aryRep = {
           "",
           "",
           "",
           "/"",
           "&",
           "<",
           ">",
           " ",
           "/xa1",//chr(161),
           "/xa2",//chr(162),
           "/xa3",//chr(163),
           "/xa9",//chr(169),
           "",
           "/r/n",
           ""
          };

    string newReg =aryReg[0];
    string strOutput=strHtml;
    for(int i = 0;i<aryReg.Length;i++){
      Regex regex = new Regex(aryReg[i],RegexOptions.IgnoreCase);
      strOutput = regex.Replace(strOutput,aryRep[i]);
    }
    strOutput.Replace("<","");
    strOutput.Replace(">","");
    strOutput.Replace("/r/n","");
    return strOutput;
  }
}

相关文章推荐

.net(C#)从html中提取中文字_正则表达式

using System.Text.RegularExpressions;        private string StripHT(string strHtml)  //从html中提取纯文...

C#提取HTML代码中的文字

C#提取HTML代码中的文字///   /// 去除HTML标记  ///   /// 包括HTML的源码   /// 已经去除后的文字  public static string StripHTML...

C#中RichTextBox中文字的上标或下标表示设定

下面介绍一下在RichTextBox设定上标和下标的SelectionCharOffset属性。SelectionCharOffset属性是以字符串表示正常基准线为准, 进行画素的设定。想表示为上标时...

基于MATLAB的电商平台图片中文字的提取与识别(第四届泰迪杯全国数据挖掘竞赛A题)

基于matalb电商平台图片中文字的识别   摘 要:随着电子商务的发展,电商平台越来越多得以图片形式展现商品信息。然而因商品信息图片中的内容和商品参数规格中的参数不一致或是采用图片的方式来规避对违禁...

cocos2d-x实现文字输入框以及字符串中文字的提取

Focus_凯 个人原创,欢迎转载,转载请注明地址。Focus_凯的专栏地址http://blog.csdn.net/focusdeveloper 今天分享下如何做一个聊天窗口的文字输入框并且在其...

取中文字的全拼的存储过程

  • 2014年03月26日 15:47
  • 18KB
  • 下载

source insight中文字的配色方案

  • 2015年05月22日 15:07
  • 10KB
  • 下载

php中去除文字内容中所有html代码

PHP已经为我们提供了很多清除html格式的方法了,下面就让老高介绍一下。 I. strip_tags strip_tags($str) 去掉 HTML 及 PHP 的标记 语法: string ...

计算 BIG5 码中文字的笔划

  • 2002年08月12日 00:00
  • 5KB
  • 下载

文字和图片居中的HTML代码怎么写?

HTML 代码 ,怎么将文本/ 图片居中?这是在W3Cschool的编程问答中前端♌蕾儿提出的问题。网友施主同西否给出了详细的解答。 html文字居中和html图片居中方法代码,通过在html中实现文...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:提取HTML代码中文字的C#函数
举报原因:
原因补充:

(最多只允许输入30个字)