python读取html文件中的内容并输出_python使用正则提取html文本内容，多段匹配如何获取所有结果...

最新推荐文章于 2024-06-04 09:58:09 发布

weixin_39992483

最新推荐文章于 2024-06-04 09:58:09 发布

阅读量698

点赞数

文章标签： python读取html文件中的内容并输出

在对网页数据清洗的时候遇到，如果在一段html文本中，有多个目标对象，如何将内容都提取出来。

比如下面一段内容

我们信步走进了一家乡村气息浓郁的小院子，小院里干净利落。院子中整齐地挂满了金黄的玉米，连玉米骨头都码得整整齐齐的，红红的辣椒挂在门口两侧，鸡狗猫等正悠闲地在庭院中散步，鸡屋子上有两个鸡窝，其中一个鸡窝里正好有一枚鸡蛋，还有，绣球花等各色花儿开得正艳……小院的主人已都是八十多岁高龄，男主人八十三岁，女主人八十五岁，他们还正在扒着玉米，见我们闯进院子，非但不紧张，倒是很热情，邀我们落座，还打算给我们倒热水，我们连连推辞才罢。两位老人，不紧不慢，却也一直不停歇，听他们说，现在儿孙们大都已独立，也算有出息。看到这么干净利落，充满温馨生活气息的小院，一定是老人们的生活充满追求又富有情趣，才创造了这一切的美好。

想提取出其中的汉字部分。

目前的方案

使用正则表达式全匹配，具体代码如下(部分截取)：

import re

s = '''

我们信步走进了一家乡村气息浓郁的小院子，小院里干净利落。院子中整齐地挂满了金黄的玉米，连玉米骨头都码得整整齐齐的，红红的辣椒挂在门口两侧，鸡狗猫等正悠闲地在庭院中散步，鸡屋子上有两个鸡窝，其中一个鸡窝里正好有一枚鸡蛋，还有，绣球花等各色花儿开得正艳……小院的主人已都是八十多岁高龄，男主人八十三岁，女主人八十五岁，他们还正在扒着玉米，见我们闯进院子，非但不紧张，倒是很热情，邀我们落座，还打算给我们倒热水，我们连连推辞才罢。两位老人，不紧不慢，却也一直不停歇，听他们说，现在儿孙们大都已独立，也算有出息。看到这么干净利落，充满温馨生活气息的小院，一定是老人们的生活充满追求又富有情趣，才创造了这一切的美好。

'''

rs = re.findall(r'(?<=(>))[\d\D]*?(?=(

for item in rs:

print item

结果

输出如下，并非自己想要的结果

('>', '

('>', '

('>', '

weixin_39992483

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python读取html文件中的内容并输出_python使用正则提取html文本内容，多段匹配如何获取所有结果...

在对网页数据清洗的时候遇到，如果在一段html文本中，有多个目标对象，如何将内容都提取出来。比如下面一段内容我们信步走进了一家乡村气息浓郁的小院子，小院里干净利落。院子中整齐地挂满了金黄的玉米，连玉米骨头都码得整整齐齐的，红红的辣椒挂在门口两侧，鸡狗猫等正悠闲地在庭院中散步，鸡屋子上有两个鸡窝，其中一个鸡窝里正好有一枚鸡蛋，还有，绣球花等各色花儿开得正艳……小院的主人已都是八十多岁高龄，男主人八十...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。