Scrapy
零零Hua
这个作者很懒,什么都没留下…
展开
-
Scrapy之3种模拟登陆方法
方法一:通过登陆后的cookies来维持登陆状态,爬取只有登陆后才能爬取的网页,具体方法见https://blog.csdn.net/weixin_43213382/article/details/103219239方法二:通过post方法爬取,将登陆账号等信息通过字典post进去。具体步骤为:a.随意输入账号、密码登陆,在network中找到session,在它的Header里找到Fo...原创 2019-11-24 16:43:52 · 245 阅读 · 0 评论 -
Scrapy之设置cookies
在spider页面重写start_requests方法,将登陆后的cookies复制过来,并处理成字典格式,在start_requests方法里yield一个请求,将cookies作为参数添加进去即可。关于如何准确获取登陆后的cookies只要是在完成账号登陆后打开的页面,保存的cookies都是一样的,随意复制即可。def start_requests(self): #复制过来的c...原创 2019-11-23 21:53:58 · 643 阅读 · 0 评论 -
Scrapy之设置随机User-Agent
首先,scrapy爬虫的User-Agent是在下载器中间件中设置的,即middlewares.py文件。具体步骤如下:1.在settings.py中设置User-Agent列表,列表中包含可选的user-agents;2.在middlewares.py中自定义一个类RandomUserAgentMiddleware(名字自取);3.在该类中通过from_crawler方法获取settin...原创 2019-11-19 22:50:22 · 661 阅读 · 0 评论