[原创代码]用正则表达式剔除文本中的HTML标记

原创 2004年09月14日 01:43:00

因为我的前段时间发的XMLHTTP批量抓取远程资料的文章
http://blog.csdn.net/babyt/archive/2004/09/08/98516.aspx
最近有人来问我如何将文章用文本格式保存,而不是直接使用HTML存储,这样的话会节约数据库空间.于是写了这么个函数来将文本中的HTML标记剔除

函数虽然简单,但是对处理HTML文档还是很有效的
<%
Function RemoveHTML(strHTML)
 Dim objRegExp, Match, Matches  
 Set objRegExp = New Regexp
 
 objRegExp.IgnoreCase = True
 objRegExp.Global = True
 '取闭合的<>
 objRegExp.Pattern = "<.+?>"
 '进行匹配
 Set Matches = objRegExp.Execute(strHTML)
 
 ' 遍历匹配集合,并替换掉匹配的项目
 For Each Match in Matches  
     strHtml=Replace(strHTML,Match.Value,"")
 Next
 RemoveHTML=strHTML
 Set objRegExp = Nothing
End Function

%>

用正则表达式剔除文本中的HTML标记

====================================================== 注:本文源代码点此下载 =============================...
  • javazhuanzai
  • javazhuanzai
  • 2012年02月01日 03:35
  • 172

正则表达式提取html标签里的内容

public static void asdf() { var strJson = @"123123123123111566051231231231231233...
  • qq373591361
  • qq373591361
  • 2016年08月24日 15:32
  • 3520

HTML文档的常用标记

一.
  • u012561176
  • u012561176
  • 2015年07月20日 15:14
  • 1845

HTML标记与属性

说到HTML标记就得先说说HTML元素 HTML文档是由HTML元素组成的,而HTML文档就是我们平常所见到的网页,我们看到的网页上的表格、图片、列表,都是网页上的元素 可以说网页就像是拼图一般,而元...
  • weixin_35766640
  • weixin_35766640
  • 2016年08月02日 17:01
  • 373

Java正则表达式提取html纯文本

做内容的大家都知道,从html中直接提取纯文本是一个非常大的问题。现将我做的正则匹配贴上: import java.util.regex.Matcher; import java.util.reg...
  • w_j_w2010
  • w_j_w2010
  • 2015年11月24日 16:33
  • 1911

java如何利用正则表达式去掉文本中的HTML标签

String s=content.replaceAll("]*>","");
  • dbeautifulLife
  • dbeautifulLife
  • 2017年02月17日 15:32
  • 768

使用正则表达式处理html标签方案分享

首先呢,阅读本文前建议大家去读下这篇文章点击打开链接,是关于java正则工具类Matcher相关的一些探讨和建议 下面这是其中一项关于处理匹配内容替换的范例, appendReplacement()...
  • jieve_y
  • jieve_y
  • 2016年05月19日 09:52
  • 2858

去除文本中重复的数据行

一、去掉相邻重复的数据行 复制代码 代码如下: $cat data1.txt | uniq 输出: beijing wuhan beijing wuhan ...
  • will_Liangfei
  • will_Liangfei
  • 2017年04月12日 18:38
  • 214

利用正则表达式除去html得到纯文本

public static string DelHTML(string Htmlstring)//将HTML去除          {                    #region ...
  • wustzbq0713
  • wustzbq0713
  • 2015年06月07日 21:57
  • 1576

利用正则表达式去掉html代码

 using System.Text.RegularExpressions;//需要引用  // 利用正则表达式去掉""之间的内容  private string StripHT(string str...
  • ecitnet
  • ecitnet
  • 2007年10月17日 17:04
  • 644
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:[原创代码]用正则表达式剔除文本中的HTML标记
举报原因:
原因补充:

(最多只允许输入30个字)