抓取的网站需要登录，才能采集网站信息

最新推荐文章于 2024-07-16 15:49:34 发布

yiyiyaya哈哈哈

最新推荐文章于 2024-07-16 15:49:34 发布

阅读量1.8k

点赞数

分类专栏：爬虫文章标签： scrapy 登录 cookies

本文链接：https://blog.csdn.net/qq_41911048/article/details/88062432

版权

爬虫专栏收录该内容

6 篇文章 0 订阅

订阅专栏

scrapy采集需要登录的网站信息

直接登录网站，鼠标右键–检查，或者直接键盘F12,找到cookie值，此时的cookie是已经登录之后的cookie，将其转化为字典的格式

下面这段代码可以将网页中的cookie值直接转化成字典格式：

class DictCookie:
    def __init__(self, cookie):
        self.cookie = cookie

    def stringToDict(self):
        itemDict = {}
        items = self.cookie.split(';')
        for item in items:
            key = item.split('=')[0].replace(' ', '')
            value = item.split('=')[1]
            itemDict[key] = value
        return itemDict

if __name__ == "__main__":
    cookie = "此处复制你从网站上面复制粘贴下来你的cookie值"
    trans = DictCookie(cookie)
    dict_cookie = trans.stringToDict()
    print("dict_cookie:",dict_cookie)

然后在你的crawl.py(蜘蛛中)

cookie = {
	"key1":"values1",
	"key2":"values2",
	....
}
header={
     "Accept":"",
    "Accept-Encoding":"",
    "Accept-Language":"",
    "Cache-Control":"",
    "Connection":"",
    "Host":"",
    "User-Agent":"",
}
(设置header头，在我抓取的商品链接的时候，在header头中没有referer，在抓取的时候，一直被重定向出现302错误，加上之后，可以重新采集)

设置的cookie和header，
yield scrapy.Request(url=url,callback=self.parse,headers=headers,cookies=self.cookie)
告诉网页此时已经是登录的状态

yiyiyaya哈哈哈

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
抓取的网站需要登录，才能采集网站信息

scrapy采集需要登录的网站信息直接登录网站，鼠标右键–检查，或者直接键盘F12,找到cookie值，此时的cookie是已经登录之后的cookie，将其转化为字典的格式下面这段代码可以将网页中的cookie值直接转化成字典格式：class DictCookie: def __init__(self, cookie): self.cookie = cookie ...
复制链接

扫一扫

专栏目录