python爬虫基础(3:数据提取之正则)

正则几乎可以提取任何数据,但是特别难写,一般其他解析库不能提取的时候才使用正则

正则还可以用于数据清洗,本文案例的正则只用于简单的数据清洗

正则介绍链接:https://cuiqingcai.com/977.html

案例是上一篇(https://blog.csdn.net/jeeson_z/article/details/81279249)的 豆瓣电影Top250

上次得到的结果:

其中 '电影介绍(intro)' 的内容中包含空格、换行等,使阅读难度增大

为了阅读方便,将用正则使多行显示为一行

使用正则

findall() 方法查找,'\S' 表示提取所有的非空白字符,re.S表示换行提取


                
  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值