爬虫用Cookie登录网页

最新推荐文章于 2024-07-17 10:00:00 发布

eye_water

最新推荐文章于 2024-07-17 10:00:00 发布

阅读量8.8k

点赞数 1

分类专栏： python爬虫文章标签：爬虫

本文链接：https://blog.csdn.net/eye_water/article/details/78484217

版权

最近在爬取豆瓣的数据时发现了一些问题。因为要做一个爬虫，爬取用户读过的书以及对书的评分。但是在进行网页的分析时却出现了点问题。
当浏览器打开用户读书记录的链接时是没有任何问题的，但是用requests库来进行网页爬取时却出现了问题。
以https://book.douban.com/people/…/collect这个链接为例，获取这个链接的html源码，一般都是这样写：

import requests

url = 'https://book.douban.com/people/.../collect'
r = requests.get(url)
print(r.text)

运行结果却是：

<html>

<head><title>403 Forbidden</title></head>

<body bgcolor="white">

<center><h1>403 Forbidden</h1></center>

<hr><center>nginx</center>

</body>

</html>

网页却能正常访问：
这里写图片描述
经过百度后发现，这是因为在爬取网页时没有传入Cookie，服务器不能识别用户身份，网页不能显示给没有用户身份的请求，所以网页源码被隐藏了。

最低0.47元/天解锁文章

eye_water

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
12
评论
爬虫用Cookie登录网页

最近在爬取豆瓣的数据时发现了一些问题。因为要做一个爬虫，爬取用户读过的书以及对书的评分。但是在进行网页的分析时却出现了点问题。当浏览器打开用户读书记录的链接时是没有任何问题的，但是用requests库来进行网页爬取时却出现了问题。以https://book.douban.com/people/…/collect这个链接为例，获取这个链接的html源码，一般都是这样写：import reque
复制链接

扫一扫

专栏目录