scrapy爬取需要登录的网站（知乎）

最新推荐文章于 2024-08-22 16:33:52 发布

BigDong305

最新推荐文章于 2024-08-22 16:33:52 发布

阅读量4.3k

点赞数

分类专栏： python 文章标签： selenium自动登录 cookies登录

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39965716/article/details/80623605

版权

本文介绍了两种方法通过selenium自动登录知乎，并将cookies应用于Scrapy爬虫，以爬取需要登录状态的数据。第一种方法是在middlewares.py中结合selenium操作，第二种方法直接在myzhihu.py中处理。

摘要由CSDN通过智能技术生成

法一：使用selenium

在middlewares.py中

import time
from scrapy import signals
from selenium import webdriver
from scrapy.http import HtmlResponse
import requests

class LoginMiddle(object):
    def process_request(self,request,spider):
        if spider.name=='myzhihu':#判断是哪个爬虫名
            if request.url.find('signup')!=-1:#这里signup是在链接中的signup，-1表示未登陆
                spider.broswer=webdriver.Chrome()
                spider.broswer.get(request.url)#获取url，myzhihu中的start_url
                time.sleep(1)
                spider.broswer.find_element_by_xpath('//div[@class="SignContainer-switch"]/span').click()
                time.sleep(1)
                #获取输入框
                username=spider.broswer.find_element_by_name('username')#
                password=spider.broswer.find_element_by_name('password')
                #传值

最低0.47元/天解锁文章

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

BigDong305 CSDN认证博客专家 CSDN认证企业博客

码龄7年

18: 原创

20万+: 周排名

87万+: 总排名

2万+: 访问

: 等级

417: 积分

4: 粉丝

7: 获赞

6: 评论

25: 收藏

私信

关注

热门文章

分类专栏

python 7篇
matplotlib绘图 1篇
爬虫 2篇
Python基础 2篇
PyQt5基本使用 1篇
vnpy 1篇
mongdb 1篇
pymongo 1篇
Pandas 1篇
Numpy 1篇
linux 1篇
金石资本

最新评论

scrapy实现增量式爬取
zhu6201976: 1.框架自带配置无法获取动态内容且占用硬盘空间极大不合适 2.item去重对网站压力过大无意义 3.url数据库去重较好但依赖数据库你自己都说了由于mongodb的特点是插入块，查询慢 4.完全不依赖数据库/硬盘且对网站无压力速度快方式待考虑
navicate for mysql mac版
hntuddn: 注册机已经用不了了
scrapy实现增量式爬取
破锁的: 第一种方法，是在哪个文件实现的，爬虫文件，还是pipeline文件
sublime text3 搭建python环境
wujianqinjian: 有趣，感谢博主分享
sublime text3 搭建python环境
wujianqinjian: 好文章，必须评论一下！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。