python爬网页使用正则表达式遇到源码中标签换行的情况

当我们使用正则表达式的 findall 函数时,大部分情况如下:
可以看到[nobr标签没有被换行]
就可以直接使用正则表达式提取目标内容:
如我们需要提取年份:

urls_year= re.findall('<nobr>(.*?)-.*?-.*? .*?:.*?:.*?</nobr>', html)

(其中,html 存储的是爬取的某页的所有源码)

即:将“html“这一页中所有标签的内容提取出来并将年份信息保存到 urls_year 中。

那么问题是,这种情况该怎么处理呢?可以看到[span]标签是被换了行的

urls_year= re.findall('<span class="xmc_b9">
2021-01-26</span>', html)

可以看到将其复制到过去是自动换了行的,手动取消换行会报错。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值