Scrapy学习
python专业爬虫框架Scrapy
张行之
闻道有先后,术业有专攻。
展开
-
Scrapy框架学习(一)----Scrapy介绍及第一个项目
Scrapy框架学习(一)—-Scrapy介绍及第一个项目scrapy的介绍Scrapy使用纯python实现的爬虫框架,采用Twisted网络异步框架来处理网络通讯层,并包含了各种中间件接口。可以灵活的完成需要爬取网站数据,并提取结构性数据。Scrapy的中文文档 http://scrapy-chs.readthedocs.io/zh_CN/latest/index.htmlScrapy官方原创 2017-11-29 20:23:43 · 2644 阅读 · 1 评论 -
Scrapy框架学习(二)----Item Pipeline(管道)和Scrapy Shell
Scrapy框架学习(二)—-Item Pipeline(管道)和Scrapy ShellItem Pipeline(管道)当Item在Spider中被收集之后,它将会被传递到Item Pipeline,一些组件会按照一定的顺序执行对Item进行处理。每个Item Pipeline都是实现了简单方法的Python类,比如决定此Item是丢弃而存储。以下是Item Pipeline的典型应用:验证爬原创 2017-11-29 20:24:38 · 5184 阅读 · 0 评论 -
Scrapy框架学习(三)----基于Scrapy框架实现的简单爬虫案例
Scrapy框架学习(三)—-Scrapy框架实现简单的爬虫程序前面2章讲解了Scrapy的基本内容,如:创建项目,配置settings.py,items,spider,item pipeline,scrapy shell等概念,现在我们使用之前学习的内容,来实现一个爬虫案例。爬虫案例以虎嗅网新闻子页面为例。页面的url:https://www.huxiu.com/channel/104.html,原创 2017-11-29 20:25:23 · 1264 阅读 · 0 评论 -
Scrapy框架学习(四)----CrawlSpider、LinkExtractors、Rule及爬虫示例
Scrapy框架学习(四)—-CrawlSpider、LinkExtractors、Rule及爬虫示例CrawlSpider、LinkExtractors、Rule是scrapy框架中的类,其中CrawlSpider是Spider的派生类,具有更多的方法和功能,LinkExtractor类是用作提取链接的,Rule表示的是爬取的规则。CrawlSpiderCrawlSpider是Spider的派生类原创 2017-11-29 20:26:17 · 10597 阅读 · 3 评论 -
Scrapy框架学习(五)----Request、Response介绍及模拟GitHub登录
Scrapy框架学习(五)—-Request、Response介绍及模拟GitHub登录Scrapy使用Request和Request对象爬取web站点。一般来说,Request对象在spider中被生成并且最终传递到下载器(Downloader),下载器对其进行处理并返回一个Response对象,Response对象还会返回到生成request的spider中。所有Request和Response原创 2017-12-02 13:01:02 · 2657 阅读 · 0 评论 -
Scrapy框架学习(六)----Downloader Middleware及使用MongoDB储存数据
Scrapy框架学习(六)—-Downloader Middleware及使用MongoDB储存数据Downloader Middleware(下载中间件)Downloader Middleware(下载中间件)是一个介于Scrapy的Request/Response处理的钩子框架。是用于全局修改Scrapy request和response的一个轻量级、底层的系统。要激活下载器中间件组件,需要将其原创 2017-12-02 13:02:10 · 1675 阅读 · 0 评论 -
Scrapy框架学习(七)----Scrapy与scrapy-splash框架结合,快速加载js页面
Scrapy框架学习(七)—-Scrapy与scrapy-splash框架结合,快速加载js页面一、前言我们在使用爬虫程序爬取网页时,一般对于静态页面的爬取是比较简单的,之前写过挺多的案例。但是对于使用js动态加载的页面如何爬取呢?对于动态js页面的爬取有以下几种爬取的方式:通过selenium+phantomjs实现。phantomjs是一个无头浏览器,selenium是一...原创 2018-03-06 18:43:29 · 5596 阅读 · 1 评论 -
Scrapy框架学习(八)----Scrapy-redis分布式爬虫学习
Scrapy框架学习(八)—-Scrapy-redis分布式爬虫学习Scrapy-redis分布式爬虫框架,是在Scrapy爬虫框架的基础上进行改进的,通过Redis来进行数据的缓存,可以在多台机器上运行爬虫程序。本文示例是在CentOS的虚拟机运行。1、Redis安装关于Redis的安装,网上有不少的文章,在配置Redis环境上也会有些问题,下面的2篇文章,详细的介绍了Redis...原创 2018-03-15 14:02:29 · 3029 阅读 · 1 评论