初识爬虫 - 豆瓣电影

本文介绍了如何使用Python爬虫抓取豆瓣电影数据。在爬取过程中遇到网站反爬机制,通过设置User-Agent绕过。解析XHR请求找到实际数据源,发现数据以JSON格式存在,通过循环和数据类型转换保存电影信息。此外,还提到在抓取分页数据时,观察XHR请求的变化,根据start参数动态更新URL以获取更多条目。
摘要由CSDN通过智能技术生成

今天来说一下爬取豆瓣电影,爬取这样的一个页面内容信息:

好了,进入正题,先按照我们以前的做法,准备目标网站:

 url='https://movie.douban.com/typerank?type_name=%E5%89%A7%E6%83%85&type=11&interval_id=100:90&action='

发起请求,获取响应:

response = requests.get(url=url)
print(response)

我们发现结果是这样的:

和以往我们见到的 [200] 不一样(关于更多 爬虫的状态码,可见这篇博客:爬虫状态码),这是因为目标网站不希望别人去爬他们的数据,设置了反爬虫的机制,那么下面我们就用到了去伪装一下,让网站识别不出来。方法很简单,就是设置 useragent 代理,去欺骗网站我们是正常的用户查询:

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'}

response = requests.get(url=url , headers=headers)
print(response)

现在就已经可以了,然后我们将其保存为文件:

with open('豆瓣.html','w',encoding='utf-8') as fp:
    fp.write(response.text)

浏览器打开我们保存的文件 :

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值