python读取html文件中的内容并输出_python使用正则提取html文本内容,多段匹配如何获取所有结果...

在对网页数据清洗的时候遇到,如果在一段html文本中,有多个目标对象,如何将内容都提取出来。

比如下面一段内容

我们信步走进了一家乡村气息浓郁的小院子,小院里干净利落。院子中整齐地挂满了金黄的玉米,连玉米骨头都码得整整齐齐的,红红的辣椒挂在门口两侧,鸡狗猫等正悠闲地在庭院中散步,鸡屋子上有两个鸡窝,其中一个鸡窝里正好有一枚鸡蛋,还有,绣球花等各色花儿开得正艳……小院的主人已都是八十多岁高龄,男主人八十三岁,女主人八十五岁,他们还正在扒着玉米,见我们闯进院子,非但不紧张,倒是很热情,邀我们落座,还打算给我们倒热水,我们连连推辞才罢。两位老人,不紧不慢,却也一直不停歇,听他们说,现在儿孙们大都已独立,也算有出息。看到这么干净利落,充满温馨生活气息的小院,一定是老人们的生活充满追求又富有情趣,才创造了这一切的美好。

想提取出其中的汉字部分。

目前的方案

使用正则表达式全匹配,具体代码如下(部分截取):

import re

s = '''

我们信步走进了一家乡村气息浓郁的小院子,小院里干净利落。院子中整齐地挂满了金黄的玉米,连玉米骨头都码得整整齐齐的,红红的辣椒挂在门口两侧,鸡狗猫等正悠闲地在庭院中散步,鸡屋子上有两个鸡窝,其中一个鸡窝里正好有一枚鸡蛋,还有,绣球花等各色花儿开得正艳……小院的主人已都是八十多岁高龄,男主人八十三岁,女主人八十五岁,他们还正在扒着玉米,见我们闯进院子,非但不紧张,倒是很热情,邀我们落座,还打算给我们倒热水,我们连连推辞才罢。两位老人,不紧不慢,却也一直不停歇,听他们说,现在儿孙们大都已独立,也算有出息。看到这么干净利落,充满温馨生活气息的小院,一定是老人们的生活充满追求又富有情趣,才创造了这一切的美好。

'''

rs = re.findall(r'(?<=(>))[\d\D]*?(?=(

for item in rs:

print item

结果

输出如下,并非自己想要的结果

('>', '

('>', '

('>', '

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值