python正则提取 div class名为Post-body中的内容

最新推荐文章于 2024-07-12 16:42:46 发布

清风云襄

最新推荐文章于 2024-07-12 16:42:46 发布

阅读量725

点赞数

文章标签： json python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_27487739/article/details/131144818

版权

可以使用Python内置的re模块来提取div class名为Post-body中的内容，具体步骤如下：

导入re模块：import re
定义正则表达式，以匹配对应的div标签和class属性，例如：

pattern = r'<div class="Post-body"[^>]*>(.*?)</div>'

这个正则表达式的作用是：

<div class="Post-body"：匹配以<div class="Post-body"开头的div标签；
[^>]*>：匹配除了>以外的任意字符0次或多次，直到遇到>为止；这个部分的作用是匹配div标签中的其他属性；
(.*?)：使用非贪婪匹配，匹配所有内容；
</div>：匹配以</div>结尾的div标签，以确保匹配的内容符合我们需要的条件。

使用re.findall()方法匹配所有符合条件的文本，例如：

html_str = "这是一个 <div class='Post-body'>需要提取的内容</div>"
match_list = re.findall(pattern, html_str, re.S)

这将把字符串中所有class名为Post-body的div的内容提取出来，存放在一个列表中（在本例中，列表中只有一个元素）。其中re.S参数是为了匹配多行文本。

处理提取出来的内容。根据正则表达式中的括号分组，提取出的内容会在列表中作为一个字符串出现。在本例中，提取到的内容为"需要提取的内容"。

如果你想要进一步提取这个字符串中的内容，你可以再次使用正则表达式进行匹配，或者使用Python的字符串处理方法（如split、strip等）。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python正则提取 div class名为Post-body中的内容

这将把字符串中所有class名为Post-body的div的内容提取出来，存放在一个列表中（在本例中，列表中只有一个元素）。其中re.S参数是为了匹配多行文本。如果你想要进一步提取这个字符串中的内容，你可以再次使用正则表达式进行匹配，或者使用Python的字符串处理方法（如split、strip等）。
复制链接

扫一扫

清风云襄 CSDN认证博客专家 CSDN认证企业博客

码龄9年

170: 原创

104万+: 周排名

9万+: 总排名

18万+: 访问

: 等级

2051: 积分

356: 粉丝

343: 获赞

12: 评论

506: 收藏

私信

关注

热门文章

分类专栏

javaScript 5篇
php 10篇
vue 2篇
redis 1篇
mysql 3篇

最新评论

npm切换到淘宝镜像
雪飞，雨落: 错了错了，可以改一下不，这个镜像源是过期的，淘宝最新镜像源 https://registry.npmmirror.com/，你都2023年12月的了，还发过期的，服气
php代码怎样实现判断某个 ip是否在 ip段内？
nsy1989: 这个解决方案是错的，chatgpt最烂的方案，还是错的
H5 获取前置摄像头
qq_40092063: 我的i5微信和自带的都不行
php图片圆角函数
蒋文明学IT: 实测不行
详细解释opencv python中的 cv.approxPolyDP
TSpi..: 哥，为啥我用这个函数测一个四边形，输出了20个顶点

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。