python re模块过滤html标签的实例代码。
例子: 代码示例:
#!/bin/python
#
# -*- coding: utf-8-*-
import re
##过滤HTML中的标签
#将HTML中标签等信息去掉
#@param htmlstr HTML字符串.
def filter_tags(htmlstr):
#先过滤CDATA
re_cdata=re.compile('//]*//\]\]>',re.I) #匹配CDATA
re_script=re.compile(']*>[^',re.I)#Script
re_style=re.compile(']*>[^',re.I)#style
re_br=re.compile('
')#处理换行
re_h=re.compile('?\w+[^>]*>')#HTML标签
re_comment=re.compile('')#HTML注释
s=re_cdata.sub('',htmlstr)#去掉CDATA
s=re_script.sub('',s) #去掉SCRIPT
s=re_style.sub('',s)#去掉style
s=re_br.sub('\n',s)#将br转换为换行
s=re_h.sub('',s) #去掉HTML 标签
s=re_comment.sub('',s)#去掉HTML注释</