初学爬虫（二）：爬取静态网页之（4）使用requests库进行爬虫实践——获取豆瓣电影TOP250的电影名字全过程详解

最新推荐文章于 2023-03-09 13:00:30 发布

caroline_richboom

最新推荐文章于 2023-03-09 13:00:30 发布

阅读量1.2k

点赞数

分类专栏：爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/qq_45154565/article/details/109484943

版权

本实践目的是获取豆瓣电影TOP250的所有电影的名称。
豆瓣电影TOP250网页链接：https://movie.douban.com/top250
在这里插入图片描述

1、分析网站

（1）提取请求头

这里以提取谷歌请求头为例：

①双击打开谷歌：

在这里插入图片描述
②在页面任意位置单击右键 > 选择“检查” > network：

若network下没有内容就刷新一下界面
③在name框下任意选择一项 > headers > request headers > user-agent

user-agent后的内容就是谷歌的请求头。

（2）查看网页发现每一页只有25个电影，但是题目要求的是top250的电影名称；

①单击第二页网页链接变为：
https://movie.douban.com/top250?start=25&filter=
②单击第三页网页链接变为：
https://movie.douban.com/top250?start=50&filter=
……
可以发现：每多一页，就是给网页链接的start参数加25。

2、获取网页信息（HTML代码）

（1）使用1中获取的请求头作为爬取网页信息的请求头，即伪装为谷歌请求头。

headers = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.82 Safari/537.36'

（2）使用for循环实现翻页

for i in range(0,10):
        link = 'https://movie.douban.com/top250?start=' + str(i * 25)  #每多一页，就是给网页链接的start参数加25

（3）使用requests.get()函数获取网页内容

r = requests.get(link, headers

最低0.47元/天解锁文章

caroline_richboom

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
初学爬虫（二）：爬取静态网页之（4）使用requests库进行爬虫实践——获取豆瓣电影TOP250的电影名字全过程详解

1、实践项目描述本实践目的是获取豆瓣电影TOP250的所有电影的名称
复制链接

扫一扫

专栏目录