Python正则表达式的基础语法：

最新推荐文章于 2024-09-17 00:15:00 发布

一曲无痕奈何

最新推荐文章于 2024-09-17 00:15:00 发布

阅读量152

点赞数 1

分类专栏： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41479464/article/details/82938405

版权

python 专栏收录该内容

36 篇文章 1 订阅

订阅专栏

python 正则表达式：

调用re模块：注意用findall返回的是列表

概括字符集：\d \D

\w ：a-z/A-Z/0-9 单词字符 \W 非单词字符

\s :匹配空白字符如 \n \t 空格 \n

\S:非空白字符

匹配汉字："[\u4e00-\u9fA5]"

#.匹配除换行符\n之外其他所有字符

数量词：

当我在正则匹配中遇到一个问题：

#这是源码：

line5 = "xxx出生于2008年6月5日"

match_object = ".*出生于(\d{4}[年/-]\d{1,2}([月/-]\d{1,2}|[月/-]\d{1,2}[日]|[月/-]$|$))"

r = re.match(match_object,line2)

print(r.group(1))

无论如何都匹配不到“日”

最后发现如果匹配到了第一个符合的就不会匹配了：切记一点

在正则中需要匹配最长的字符串然后在匹配其他的：

下面是改良版的：

match_object = ".*出生于(\d{4}[年/-]\d{1,2}([月/-]\d{1,2}[日]|[月/-]$|$|[月/-]\d{1,2}))"

改变一下匹配的位置即可。

def filter_tags(content): ###对网页源码做处理，保留文本内容

re_cdata = re.compile('//<!\[CDATA\[[^>]*//\]\]>', re.I) # 匹配CDATA /<![CDATA[

re_script = re.compile('<\s*script[^>]*>[^<]*<\s*/\s*script\s*>', re.I) # Script ===========

re_style = re.compile('<\s*style[^>]*>[^<]*<\s*/\s*style\s*>', re.I) # style ==========

re_br = re.compile('<br\s*?/?>') # 处理br ========

re_h = re.compile('</?\w+[^>]*>') # HTML标签

re_comment = re.compile('') # HTML注释 ========

re_rn = re.compile('\\r|\\n|\\t') # 处理换行和制表符 ======

re_xa = re.compile('\xa0') # 处理空白符 ======

re_s = re.compile('\s') # 处理空格 =======

s = re_cdata.sub('', content) # 去掉CDATA

s = re_script.sub('', s) # 去掉SCRIPT

s = re_style.sub('', s) # 去掉style

s = re_br.sub('', s) # 将br转换为换行

s = re_h.sub('', s) # 去掉HTML 标签

s = re_comment.sub('', s) # 去掉HTML注释

s = re_rn.sub('', s) # 去掉换行空格=====

s = re_xa.sub('', s) # 去掉空白符=====

s = re_s.sub('', s) # 去掉空格======

return s

if __name__ == '__main__':

print(filter_tags(content))

一曲无痕奈何

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。