python3 正则去除 html标签，提取正文内容

最新推荐文章于 2024-04-26 15:14:42 发布

码农三少_V

最新推荐文章于 2024-04-26 15:14:42 发布

阅读量1.7k

点赞数

分类专栏： python 文章标签： python re 爬虫

本文链接：https://blog.csdn.net/qq_40258091/article/details/89311410

版权

8 篇文章 0 订阅

订阅专栏

方法一（pattern正则匹配实例去调用 sub方法）：

html = '<a href="//www.jb51.net">哈哈哈</a>去学习哈哈哈哈！'
pattern = re.compile(r'<[^>]+>', re.S)
new_html = pattern.sub('', html)
print(new_html)

输出结果：

哈哈哈去学习哈哈哈哈！

方法二（re去掉用 sub方法）：

html = '<a href="//www.jb51.net">哈哈哈</a>去学习哈哈哈哈！'
pattern = re.compile(r'<[^>]+>', re.S)
new_html_1 = re.sub(pattern,'', html)
print(new_html_1)

输出结果：

哈哈哈去学习哈哈哈哈！

总结：其实你把 +变成 * 或者把 re.S 去掉，又或者同时都做了，结果还是一样的！！

re.sub(pattern, repl, string[, conunt]) ,其中 count 是指明替换的次数，不写的话就把全部符合的都替换掉

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注