正则几乎可以提取任何数据,但是特别难写,一般其他解析库不能提取的时候才使用正则
正则还可以用于数据清洗,本文案例的正则只用于简单的数据清洗
正则介绍链接:https://cuiqingcai.com/977.html
案例是上一篇(https://blog.csdn.net/jeeson_z/article/details/81279249)的 豆瓣电影Top250
上次得到的结果:
其中 '电影介绍(intro)' 的内容中包含空格、换行等,使阅读难度增大
为了阅读方便,将用正则使多行显示为一行
使用正则
用 findall() 方法查找,'\S' 表示提取所有的非空白字符,re.S表示换行提取