正则几乎可以提取任何数据,但是特别难写,一般其他解析库不能提取的时候才使用正则
正则还可以用于数据清洗,本文案例的正则只用于简单的数据清洗
正则介绍链接:https://cuiqingcai.com/977.html
案例是上一篇(https://blog.csdn.net/jeeson_z/article/details/81279249)的 豆瓣电影Top250
上次得到的结果:

其中 '电影介绍(intro)' 的内容中包含空格、换行等,使阅读难度增大
为了阅读方便,将用正则使多行显示为一行
使用正则
用 findall() 方法查找,'\S' 表示提取所有的非空白字符,re.S表示换行提取

本文介绍了Python爬虫中如何利用正则表达式进行数据提取和清洗,特别是在其他解析库无法满足需求时。以豆瓣电影Top250为例,通过正则表达式将电影介绍中的多行内容合并成一行,提高阅读体验。具体实现方法包括使用findall()查找非空白字符并使用join()方法组合成字符串。
最低0.47元/天 解锁文章
&spm=1001.2101.3001.5002&articleId=81281770&d=1&t=3&u=64d059a3440146b09d9efa5fc0d03257)

被折叠的 条评论
为什么被折叠?



