![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
SHAN_9W
这个作者很懒,什么都没留下…
展开
-
scrapy 爬取知乎用户信息
先从知乎的轮子哥开始爬去他的粉丝列表和关注列表,然后再爬取他粉丝和关注的人里的用户,递归爬取,然后存储到MongoDB里。目前还没有写代理池,爬取太频繁容易被知乎识别出来,会被要求输入验证码。所以现在我还是把settings里的AUTOTHROTTLE_ENABLED = True,延迟操作,但是爬取效率肯定会低很多。看视频的时候request的url和翻页的url里都有/api/v4这个...原创 2018-10-23 20:07:49 · 484 阅读 · 6 评论 -
建立微博cookie池准备 收集微博验证码 建立验证码数据库
登录微博weibo.cn会出现验证码验证可以排列组合算出4*3*2*1=24种,所以可以先用selenium模拟登录截取这些验证码,方便之后获取cookie时登录验证,在验证码数据库中匹配,所以写了这么一个脚本获取验证码,其实效率不是很高 ,可以多进程操作,或者用selenium模拟人随便滑动验证码,这时验证码会自动更新,不用重新打开浏览器,提升效率。验证码收集全后,手动标记下轨迹。...原创 2018-10-31 12:36:33 · 602 阅读 · 0 评论 -
利用scrapy建立代理池
一开始爬取xicidaili,频率太快ip被禁了。。。,只能回家爬取。明天把爬取的ip存到redis里做持久化,并且爬取后自动测试代理评级。proxypool.py# -*- coding: utf-8 -*-import scrapyfrom scrapy import Request,Spiderfrom pyquery import PyQueryfrom ..items ...原创 2018-10-24 15:38:14 · 926 阅读 · 0 评论 -
scrapy 一个项目里同时运行多个爬虫
在spiders文件同级建立一个commands文件夹,建立一个py文件,我自定义为crawlall.py。from scrapy.commands import ScrapyCommandclass Command(ScrapyCommand): requires_project = True def syntax(self): return '...原创 2018-10-24 21:40:05 · 4375 阅读 · 0 评论 -
建立微博cookies池,后期可扩展成其他网站。
项目地址https://github.com/Danbro007/Cookie-Pool原创 2018-11-01 12:26:52 · 236 阅读 · 0 评论 -
scrapy 自己定制去重规则
去重规则 默认的去重规则就是先建立一个集合,然后每次请求前先到这个集合中看是否有这个请求的url,没有则发送请求.ulr会被request_fingerprint函数转换成固定长度的字符串,这个字符串是唯一的,方便存储到数据库中. a. 编写类 from scrapy.dupefilter import BaseDupeF...原创 2019-04-09 20:25:53 · 1090 阅读 · 0 评论 -
提高scrapy的mongodb插入速度 添加索引
速度问题最近工作中遇到这么一个问题,全站抓取时采用分布式:爬虫A与爬虫B,爬虫A给爬虫B喂饼,爬虫B由于各种原因运行的比较慢,达不到预期效果,所以必须对爬虫B进行优化。提升Scrapy运行速度有很多方法,国外有大佬说过Speed up web scraperHere's a collection of things to try:1. use latest scrapy ver...转载 2019-04-17 16:31:53 · 722 阅读 · 0 评论