爬虫
longshuo1995
这个作者很懒,什么都没留下…
展开
-
scrapy-redis 介绍
1.介绍 scrapy是一个爬虫框架,但是不支持分布式。scrapy-redis在scrapy的基础上,更方便地实现了分布式。 scrapy-redis提供了下面四种组件(component):(四种组件意味着scrapy的四个模块都要修改) Scheduler Duplication Filter Item Pipeline Base Spider Schedular: 改造了原创 2017-08-20 16:38:13 · 513 阅读 · 0 评论 -
scrapy-redis的使用(基于scrapy的改装)
1.setting 配置文件修改# 1.(必须加)。使用scrapy_redis.duperfilter.REPDupeFilter的去重组件,在redis数据库里做去重。DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"# 2.(必须加)。使用了scrapy_redis的调度器,在redis里面分配请求。SCHEDULER原创 2017-08-21 10:16:48 · 2335 阅读 · 0 评论 -
fiddler手机抓包
1.fiddler配置 tools–》options–》Connections–》配置代理端口号,选中,Allow remote computer 打勾选上。tools–》options–》HTTPS–》选择抓取模式 from remote client only 2.手机和电脑位于同一个局域网 网段中, 配置手机的代理服务器IP和端口号,3.安装证书(不安装证书,https的请求响应发送不了原创 2017-08-22 08:37:38 · 373 阅读 · 0 评论 -
asyncio/aiohttp 的协程爬虫
1.asyncio是一个写协程的。1.导包import asyncio2.1.创建方法(里面带休眠)@asyncio.coroutinedef hello(): print('Hello world') yield from asyncio.sleep(1) print('Hello again!')2.2 方法也可以这样创建async def hello(): p原创 2017-09-05 17:01:10 · 917 阅读 · 0 评论 -
gevent协程-配合爬虫使用
协程类似于多线程,但是协程的切换是程序内部执行的,对cpu的资源消耗较少。可以想象成是多线程的升级版本。使用:①打包+猴子补丁import geventfrom gevent import monkeymonkey.patch_all()②方法封装(该方法就是异步的了)g_list = []g_list.append(gevent.spawn(方法名,参数))gevent.joinall(g原创 2017-09-07 10:19:15 · 391 阅读 · 0 评论 -
crawl spider的使用
1.创建一个爬虫项目:scrapy startproject news_spider1.1 进入到项目目录里面 cd news_spider 2.创建一个爬虫scrapy genspider -t crawl 爬虫名 域名 scrapy genspider -t crawl china_report “www.chinareports.org.cn” 3.参数介绍1.allow_domain原创 2017-09-08 09:29:42 · 685 阅读 · 0 评论 -
python中 Selenium--》爬虫的终极大招,可用作自动化模拟操作
selenium是一个web的自动化测试工具,可以通过pip安装Python的selenium库来使用seleniumsudo pip install selenium光有selenium是不够滴,还需要配合浏览器来使用,推荐使用一下浏览器,并配置好环境变量。1.PhantomJS PhantomJS是一个无界面的浏览器,运行起来要比普通浏览器高效 需要安装PhantomJS 2.Ch原创 2017-08-05 23:24:01 · 2870 阅读 · 0 评论 -
部分app抓包时候,额外的证书认证解决
1.下载xpose installer(一个平台2.7版本为佳) 2.下载just Trust me 插件 https://github.com/Fuzion24/JustTrustMe/releases/tag/v.2 3.最好 可以下一个 应用变量软件(app市场搜索) 模拟不同的手机类型...原创 2018-07-05 16:06:17 · 1932 阅读 · 0 评论