初学爬虫(二):爬取静态网页之(4)使用requests库进行爬虫实践——获取豆瓣电影TOP250的电影名字全过程详解

本实践目的是获取豆瓣电影TOP250的所有电影的名称。
豆瓣电影TOP250网页链接:https://movie.douban.com/top250
在这里插入图片描述

1、分析网站

(1)提取请求头

这里以提取谷歌请求头为例:

①双击打开谷歌:

在这里插入图片描述
②在页面任意位置单击右键 > 选择“检查” > network:
在这里插入图片描述
若network下没有内容就刷新一下界面
③在name框下任意选择一项 > headers > request headers > user-agent
在这里插入图片描述
user-agent后的内容就是谷歌的请求头。

(2)查看网页发现每一页只有25个电影,但是题目要求的是top250的电影名称;

①单击第二页网页链接变为:
https://movie.douban.com/top250?start=25&filter=
②单击第三页网页链接变为:
https://movie.douban.com/top250?start=50&filter=
……
可以发现:每多一页,就是给网页链接的start参数加25。

2、获取网页信息(HTML代码)

(1)使用1中获取的请求头作为爬取网页信息的请求头,即伪装为谷歌请求头。

headers = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.82 Safari/537.36'

(2)使用for循环实现翻页

for i in range(0,10):
        link = 'https://movie.douban.com/top250?start=' + str(i * 25)  #每多一页,就是给网页链接的start参数加25

(3)使用requests.get()函数获取网页内容

r = requests.get(link, headers
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值