爬取豆瓣TOP250

最新推荐文章于 2024-06-24 19:59:02 发布

诺亞

最新推荐文章于 2024-06-24 19:59:02 发布

阅读量1w

点赞数 23

文章标签： python

本文链接：https://blog.csdn.net/qq_46652932/article/details/105427260

版权

第一课《爬取豆瓣TOP250》

1.准备工作

（1）安装python,并安装jupyter库，便于使用jupyter notebook编辑页面
（2）安装python，可能需要配置环境变量，win10配置环境变量时，直接加一条新的路径
(3)安装好jupyter后，进入时先用命令进入jupyter库所在目录，再直接输入jupyter notebook,便可直接进入jupyter的网络编辑页面
例如：
cd #进入jupyter库所在c盘
cd 目录 #进入jupyter库所在目录
再输入jupyter notebook
结果如下：
在这里插入图片描述
出现此界面后便会自动跳转到jupyter的网络编辑页面，如下：

2.开始爬取网页

（1）分析网页

分析URL链接：
第一页：https://movie.douban.com/top250 或 https://movie.douban.com/top250?start=0&filter=
第二页：https://movie.douban.com/top250?start=25&filter=
第三页：https://movie.douban.com/top250?start=50&filter=
第四页：https://movie.douban.com/top250?start=75&filter=
分析结果：从此可以看出，一至四页的URL链接是有规律的，star=的后面，每个链接之间相差数字25
此时直接看第十页：
第十页URL为：

https://movie.douban.com /top250?start=225&filter=

再看第一页的链接为：

https://movie.douban.com/top250?start=0&filter=

仍然符合以上分析结果

（2）用for循环表示这个分析结果

结果如下：
在这里插入图片描述

（3）用page函数表示这10页的url链接

将函数改为：

for page in range(0, 226, 25):
url=‘https://movie.douban.com/top250?start=%s&filter=’%page

将start=0改为start=%s,后面跟的%page表示将page函数中的数值范围赋予给s,即可一次性构造出十个网页的链接
运行结果如下：
在这里插入图片描述
此时可随便点击一个链接进去，如点击start=75的链接进去，便进到top250 的第四页，而根据前面的分析，这个链接确实是第四页

3.正式爬取网页

（1）请求网页源代码，即html

实现这个目的，需要在python中安装request库，命令为pip install requests
以请求第一页为例：

test_url='https://movie.douban.com/top250?start=0&filter='

此处的单引号也可以写成双引号，目的都是为了把括号内的内容变为字符串

（2）到top250上对代码进行审查

右击进入检查元素,点击网络(network),再点击所有（All）
对该网页进行刷新，下方会出现网页的组成元素，例如图片等
在这里插入图片描述

（3）请求网址以及请求方法

按上一步操作后，点击下图中的第一页的链接，再点击右边的消息头，可看到请求网址以及请求方法
在这里插入图片描述

（4）开始请求网页

test_url=’ https://movie.douban.com/top250?start=0&filter=’
requests.get(url= test_url)

requests表示库名，.get表示请求方法（网页中看到的是get）,括号中的内容为第一页的链接
结果如下：
在这里插入图片描述
结果显示为418，浏览器识别出这个语句是爬虫程序，故拒绝返回值给我们
若改为

 test_url=’ https://movie.douban.com/top250?start=0&filter=’
 requests.get(url= test_url).text

同样返回不了值

（5）伪装浏览器

将程序伪装成正常的用户访问，躲过浏览器的识别，以便成功获取数据
首先，将代码审查中的用户代理复制过来，并将其够造成一个字典
用户代理为：

User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:74.0) Gecko/20100101 Firefox/74.0

（6）代码表示

test_url=’ https://movie.douban.com/top250?start=0&filter=’
#设置浏览器代理，构造字典：
‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:74.0) Gecko/20100101 Firefox/74.0’

#字典的构造方法：’a‘:‘b’
将字典放入括号内

requests.get(url= test_url, headers=headers).text

(代码后加.text便会返回全部内容，不加的话只返回总行数)
结果如下：
在这里插入图片描述
还可将
requests.get(url= test_url, headers=headers).text的内容赋给一个值
例如：

reponse= requests.get(url= test_url, headers=headers).text

此时再运行，没有显示，但是如果将它单独拿到下一行可以运行出内容，
运行结果如下：
在这里插入图片描述运行出来的结果双击可隐藏
也可执行单独在一行print(reponse)来输出内容，输出的内容格式是排列好的

4信息的筛选

可供选择的分析工具有：
xpath(重点介绍)
re（正则）算法较复杂，xpath解决不了时考虑用这个，下面也会提到
BeautifulSoup,即BS4

（1）安装lxml库

安装命令pip install lxml

（2）过滤

最低0.47元/天解锁文章

诺亞

关注

23
点赞
踩
161

收藏

觉得还不错? 一键收藏
6
评论
爬取豆瓣TOP250

第一课《爬取豆瓣TOP250》基于html跳转
复制链接

扫一扫