初识爬虫 - 豆瓣电影

最新推荐文章于 2021-01-22 22:06:07 发布

来者不是客

最新推荐文章于 2021-01-22 22:06:07 发布

阅读量508

点赞数

分类专栏： Python 文章标签： python 爬虫

本文链接：https://blog.csdn.net/qq_43305922/article/details/105614267

版权

本文介绍了如何使用Python爬虫抓取豆瓣电影数据。在爬取过程中遇到网站反爬机制，通过设置User-Agent绕过。解析XHR请求找到实际数据源，发现数据以JSON格式存在，通过循环和数据类型转换保存电影信息。此外，还提到在抓取分页数据时，观察XHR请求的变化，根据start参数动态更新URL以获取更多条目。

摘要由CSDN通过智能技术生成

今天来说一下爬取豆瓣电影，爬取这样的一个页面内容信息：

好了，进入正题，先按照我们以前的做法，准备目标网站：

 url='https://movie.douban.com/typerank?type_name=%E5%89%A7%E6%83%85&type=11&interval_id=100:90&action='

发起请求，获取响应：

response = requests.get(url=url)
print(response)

我们发现结果是这样的：

和以往我们见到的 [200] 不一样（关于更多爬虫的状态码，可见这篇博客：爬虫状态码），这是因为目标网站不希望别人去爬他们的数据，设置了反爬虫的机制，那么下面我们就用到了去伪装一下，让网站识别不出来。方法很简单，就是设置 useragent 代理，去欺骗网站我们是正常的用户查询：

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'}

response = requests.get(url=url , headers=headers)
print(response)

现在就已经可以了，然后我们将其保存为文件：

with open('豆瓣.html','w',encoding='utf-8') as fp:
    fp.write(response.text)

浏览器打开我们保存的文件：

最低0.47元/天解锁文章

来者不是客

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录