python爬虫数据数据解析之正则表达式

最新推荐文章于 2021-05-27 17:54:03 发布

Lkeys

最新推荐文章于 2021-05-27 17:54:03 发布

阅读量344

点赞数

分类专栏： python培训笔记文章标签： python 正则表达式爬虫

原创博客，转载请声明

本文链接：https://blog.csdn.net/A__superman/article/details/107371774

版权

python培训笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1、利用正则表达式解析页面信息步骤

（1）导入re库

import re

（2）利用最常用的方法compile()和findall()结合获取数据

html = res.text
p=re.compile('<div class="movie-item-info">.*?<a href="/films/.*?title="(.*?)".*?<p class="star">\s+(.*?)\s+</p>.*?<p class="releasetime">(.*?)</p>',re.S)
result=re.findall(p,html)

注意观察compile()方法中的.?和(.?)
而（.?）就是我们要获取的信息，.?是省略掉的信息。
例如。
html="abcd<hello world>abcd" p=re.compile('ab.*?<(.*?)>') result=re.findall(p,html)
此时result中的内容就是hello world。
需要注意的是result是列表信息，就是说我们可以保存多个数据（也就是说模板中可以有多个（.*?）），而且只要html中符合模板中空缺的数据，都会全部保存下来。
这个方法的基本思想是利用compile()构造出一个模板然后利用findall()将构造的模板去跟我们爬取的数据对比，找出我们需要的数据，也就是我们自己设置的模板中的（.*?）

3、补充：构建模板
1）找到你爬取的网页，点击f12，查看网页原码
2）找到你要爬取的信息在源码中的位置
3）把那部分源码复制下来，观察你所需要的信息，合理利用.?以及（.?）即可获取到你自己想要的信息