xiaotwins1-CSDN博客

转载《Learning Scrapy》（中文版）第5章快速构建爬虫

序言第1章 Scrapy介绍第2章理解HTML和XPath第3章爬虫基础第4章从Scrapy到移动应用第5章快速构建爬虫第6章 Scrapinghub部署第7章配置和管理第8章 Scrapy编程第9章使用Pipeline第10章理解Scrapy的性能第11章（完） Scrapyd分布式抓取和实时分析第3章中，我们学习了如何从网页提取信息并存储到Items中。大多数情况都可以用这一章...

2018-06-19 20:03:43 466

转载《Learning Scrapy》（中文版）第4章从Scrapy到移动应用

序言第1章 Scrapy介绍第2章理解HTML和XPath第3章爬虫基础第4章从Scrapy到移动应用第5章快速构建爬虫第6章 Scrapinghub部署第7章配置和管理第8章 Scrapy编程第9章使用Pipeline第10章理解Scrapy的性能第11章（完） Scrapyd分布式抓取和实时分析有人问，移动app开发平台Appery.io和Scrapy有什么关系？眼见为实。在几...

2018-06-19 19:54:48 413 1

转载《Learning Scrapy》（中文版）第3章爬虫基础

序言第1章 Scrapy介绍第2章理解HTML和XPath第3章爬虫基础第4章从Scrapy到移动应用第5章快速构建爬虫第6章 Scrapinghub部署第7章配置和管理第8章 Scrapy编程第9章使用Pipeline第10章理解Scrapy的性能第11章（完） Scrapyd分布式抓取和实时分析本章非常重要，你可能需要读几遍，或是从中查找解决问题的方法。我们会从如何安装Scrap...

2018-06-19 19:38:15 871

转载《Learning Scrapy》（中文版）第1章 Scrapy介绍

本书作者使用的Scrapy版本是1.0.3。感兴趣的话，还可以看看Scrapy1.4最新官方文档总结。下载本书代码：https://github.com/scalingexcellence/scrapybook。下载本书PDF（英文版）：http://file.allitebooks.com/20160330/Learning%20Scrapy.pdf欢迎来到Scrapy之旅。通过这本书，我们希望...

2018-06-19 18:44:03 458

转载《Learning Scrapy》（中文版）第2章理解HTML和XPath

序言第1章 Scrapy介绍第2章理解HTML和XPath第3章爬虫基础第4章从Scrapy到移动应用第5章快速构建爬虫第6章 Scrapinghub部署第7章配置和管理第8章 Scrapy编程第9章使用Pipeline第10章理解Scrapy的性能第11章（完） Scrapyd分布式抓取和实时分析为了从网页提取信息，了解网页的结构是非常必要的。我们会快速学习HTML、HTML的树...

2018-06-19 18:43:37 311

转载《Learning Scrapy》（中文版）0 序言

作者简介Dimitris Kouzis – Loukas有超过15年的软件开发经历。同时他也参与到教学活动中，受众广泛。他精通数个领域，包括数学、物理和微电子。对这些学科的理解帮助使他得到了提高，超越了软件的“实用方案”。他认为，好的解决方案应该像物理学一样确定，像纠错内存一样拥有健壮性，并且像数学原理一样具有通用性。Dimitris现在正在使用最新的数据中心技术，着手开发分布式、低延迟、高可用性...

2018-06-19 18:36:46 231

转载 Scrapy实战篇（八）之简书用户信息全站抓取

相对于知乎而言，简书的用户信息并没有那么详细，知乎提供了包括学习，工作等在内的一系列用户信息接口，但是简书就没有那么慷慨了。但是即便如此，我们也试图抓取一些基本信息，进行简单地细分析，至少可以看一下，哪些人哪一类文章最受用户欢迎，也可以给其他人一些参考不是。我们整体的思路是这样的：从某一个大V开始，抓取它的相关信息，并且提取出它的全部的关注者url，对于每一个url进行请求，提取关注者的个人信息和...

2018-06-18 01:40:56 592

转载 Scrapy实战篇（七）之Scrapy配合Selenium爬取京东商城信息（下）

之前我们使用了selenium加Firefox作为下载中间件来实现爬取京东的商品信息。但是在大规模的爬取的时候，Firefox消耗资源比较多，因此我们希望换一种资源消耗更小的方法来爬取相关的信息。下面就使用selenium加PhantomJS来实现之前的相同的逻辑。这里需要修改的就是spider.py文件，其余的部分并不需要做出修改，我们给phantomjs添加一个User-Agent信息，并且设...

2018-06-18 01:39:55 339

转载 Scrapy实战篇（六）之Scrapy配合Selenium爬取京东信息（上）

在之前的一篇实战之中，我们已经爬取过京东商城的文胸数据，但是前面的那一篇其实是有一个缺陷的，不知道你看出来没有，下面就来详细的说明和解决这个缺陷。我们在京东搜索页面输入关键字进行搜索的时候，页面的返回过程是这样的，它首先会直接返回一个静态的页面，页面的商品信息大致是30个，之所以说是大致，因为有几个可能是广告商品，之后，当我们鼠标下滑的使用，京东后台使用Ajax技术加载另外的30个商品数据，我们看...

2018-06-18 01:39:18 515

转载 Scrapy实战篇（五）爬取京东商城文胸信息

创建scrapy项目scrapy startproject jingdong填充 item.py文件在这里定义想要存储的字段信息import scrapyclass JingdongItem(scrapy.Item): content = scrapy.Field() creationTime = scrapy.Field() productColor = scrapy...

2018-06-18 01:38:44 465

转载 Scrapy实战篇（四）之周杰伦到底唱了啥

从小到大，一直很喜欢听周杰伦唱的歌，可是相信很多人和我一样，并不能完全听明白歌词究竟是什么，今天我们就来研究一下周董最喜欢在歌词中用的词，这一小节的构思是这样的，我们爬取周杰伦的歌词信息，并且将其进行分词，来看一下什么样的词出现的频率最高，我们将这一整个过程分为两部分，前一部分是抓取，后一部分是分析，分析部分将在数据可视化里面进行处理。分析既然是抓取歌词信息，那么最好的地方就是那些音乐平台了，由于...

2018-06-18 01:37:31 260

转载 Scrapy实战篇（三）之爬取豆瓣电影短评

今天的主要内容是爬取豆瓣电影短评，看一下网友是怎么评价最近的电影的，方便我们以后的分析，以以下三部电影：二十二，战狼，三生三世十里桃花为例。由于豆瓣短评网页比较简单，且不存在动态加载的内容，我们下面就直接上代码。有一点需要注意的是，豆瓣短评的前几页不需要登录就可以看，但是后面的内容是是需要我们登录才能查看的，因此我们需要添加自己的cookie。我们新创建一个项目，就叫comment吧。项目代码it...

2018-06-18 01:34:24 671

转载 Scrapy实战篇（二）之爬取链家网成交房源数据（下）

在上一小节中，我们已经提取到了房源的具体信息，这一节中，我们主要是对提取到的数据进行后续的处理，以及进行相关的设置。数据处理我们这里以把数据存储到mongo数据库为例。编写pipelines.py文件import pymongoclass MongoPipeline(object): collection = 'lianjia_house' #数据库collection名称 def ...

2018-06-18 01:32:30 547 2

转载 Scrapy实战篇（一）之爬取链家网成交房源数据（上）

今天，我们就以链家网南京地区为例，来学习爬取链家网的成交房源数据。这里推荐使用火狐浏览器，并且安装firebug和firepath两款插件，你会发现，这两款插件会给我们后续的数据提取带来很大的方便。首先创建一个名称为lianjia的项目。需求分析爬取数据的第一步当然是确定我们的需求，大方向就是我们想拿到南京地区的房源成交信息，但是具体的细节信息，我们需要从网页来看，，我们直接在浏览器中输入以下的网...

2018-06-18 01:31:40 1904 3

转载 Scrapy学习篇（十三）之scrapy-splash

之前我们学习的内容都是抓取静态页面，每次请求，它的网页全部信息将会一次呈现出来。但是，像比如一些购物网站，他们的商品信息都是js加载出来的，并且会有ajax异步加载。像这样的情况，直接使用scrapy的Request请求是拿不到我们想要的信息的，解决的方法就是使用scrapy-splash。scrapy-splash加载js数据是基于Splash来实现的，Splash是一个Javascript渲...

2018-06-18 01:25:26 474

转载 Scrapy学习篇（十二）之设置随机IP代理（IPProxy）

当我们需要大量的爬取网站信息时，除了切换User-Agent之外，另外一个重要的方式就是设置IP代理，以防止我们的爬虫被拒绝，下面我们就来演示scrapy如何设置随机IPProxy。设置随机IPProxy同样的你想要设置IPProxy ，首先需要找到可用的IPProxy ，通常情况下，一些代理网站会提供一些免费的ip代理，但是其稳定性和可用性很难得到保证，但是初学阶段，只能硬着头皮去找了，当然后期...

2018-06-18 01:24:11 31750

转载 Scrapy学习篇（十一）之设置随机User-Agent

大多数情况下，网站都会根据我们的请求头信息来区分你是不是一个爬虫程序，如果一旦识别出这是一个爬虫程序，很容易就会拒绝我们的请求，因此我们需要给我们的爬虫手动添加请求头信息，来模拟浏览器的行为，但是当我们需要大量的爬取某一个网站的时候，一直使用同一个User-Agent显然也是不够的，因此，我们本节的内容就是学习在scrapy中设置随机的User-Agent。Scrapy中设置随机User-Agen...

2018-06-17 17:39:57 367

转载 Scrapy学习篇（十）之下载器中间件（Downloader Middleware）

下载器中间件是介于Scrapy的request/response处理的钩子框架，是用于全局修改Scrapy request和response的一个轻量、底层的系统。激活Downloader Middleware要激活下载器中间件组件，将其加入到 DOWNLOADER_MIDDLEWARES 设置中。该设置是一个字典(dict)，键为中间件类的路径，值为其中间件的顺序(order)。像下面这样DO...

2018-06-17 17:39:12 514

转载 Scrapy学习篇（九）之文件与图片下载

Media PipelineScrapy为下载item中包含的文件(比如在爬取到产品时，同时也想保存对应的图片)提供了一个可重用的 item pipelines . 这些pipeline有些共同的方法和结构(称之为media pipeline)。我们可以使用FilesPipeline和Images Pipeline来保存文件和图片，他们有以下的一些特点：Files Pipeline避免重新下载最近...

2018-06-17 17:38:28 331

转载 Scrapy学习篇（八）之settings

Scrapy设定(settings)提供了定制Scrapy组件的方法。你可以控制包括核心(core)，插件(extension)，pipeline及spider组件。设定为代码提供了提取以key-value映射的配置值的的全局命名空间(namespace)。Scrapy内置设置下面给出scrapy提供的常用内置设置列表,你可以在settings.py文件里面修改这些设置，以应用或者禁用这些设置项。...

2018-06-17 17:31:14 204

转载 Scrapy学习篇（七）之Item Pipeline

在之前的Scrapy学习篇（四）之数据的存储的章节中，我们其实已经使用了Item Pipeline，那一章节主要的目的是形成一个笼统的认识，知道scrapy能干些什么，但是，为了形成一个更加全面的体系，我们在这一章节中，将会单独介绍Item Pipeline，方便以后你自定义你的item pipeline。当Item在Spider中被收集之后，它将会被传递到Item Pipeline，一些组件会按...

2018-06-17 17:30:20 486

转载 Scrapy学习篇（六）之Selector选择器

当我们取得了网页的response之后，最关键的就是如何从繁杂的网页中把我们需要的数据提取出来，python从网页中提取数据的包很多，常用的有下面的几个：BeautifulSoup它基于HTML代码的结构来构造一个Python对象，对不良标记的处理也非常合理，但是速度上有所欠缺。lxml是一个基于 ElementTree (不是Python标准库的一部分)的python化的XML解析库(也可以解...

2018-06-17 17:07:58 562

转载 Scrapy学习篇（五）之Spiders

SpidersSpider类定义了如何爬取某个网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。简而言之，Spider就是你定义爬取的动作及分析某个网页(或者是有些网页)的地方。对spider来说，爬取的循环类似如下:以初始的URL初始化Request，并设置回调函数。当该request下载完毕并返回时，将生成response，并作为参数传给该回调函...

2018-06-17 17:06:46 237

转载 Scrapy学习篇（四）之数据存储

上一篇中，我们简单的实现了一个博客首页信息的爬取，并在控制台输出，但是，爬下来的信息自然是需要保存下来的。这一篇主要是实现信息的存储，我们以将信息保存到文件和mongo数据库为例，学习数据的存储，依然是以博客首页信息为例。编写爬虫修改items.py文件来定义我们的itemItem 是保存爬取到的数据的容器；其使用方法和python字典类似。虽然你也可以在Scrapy中直接使用dict，但是Ite...

2018-06-17 17:00:29 425

转载 Scrapy学习篇（三）之创建项目

创建项目创建项目是爬取内容的第一步，之前已经讲过，Scrapy通过scrapy startproject <project_name>命令来在当前目录下创建一个新的项目。下面我们创建一个爬取博客园（'https://www.cnblogs.com/'）文章信息的项目scrapy startproject cnblog其中cnblog是你的项目的名字，可以自己定义。其目录结构如下cnbl...

2018-06-17 16:58:59 220

转载 Scrapy学习篇（二）之常用命令行工具

简介Scrapy是通过Scrapy命令行工具进行控制的，包括创建新的项目，爬虫的启动，相关的设置，Scrapy提供了两种内置的命令，分别是全局命令和项目命令，顾名思义，全局命令就是在任意位置都可以执行的命令，而项目命令只有在你新创建了项目之后，在项目目录中才可以执行的命令。在这里，简单的介绍一些常用的命令。全局命令startproject语法: scrapy startproject <pr...

2018-06-17 16:51:05 201

转载 Scrapy学习篇（一）之框架

概览在具体的学习scrapy之前，我们先对scrapy的架构做一个简单的了解，之后所有的内容都是基于此架构实现的，在初学阶段只需要简单的了解即可，之后的学习中，你会对此架构有更深的理解。下面是scrapy官网给出的最新的架构图示。基本组件引擎（Engine）引擎负责控制数据流在系统中所有组件中流动，并在相应动作发生时触发事件。详细内容查看下面的数据流(Data Flow)部分。调度器（Sched...

2018-06-17 16:39:35 273

转载 python—用for循环、while循环打印九九乘法表

用for循环打印九九乘法表：for i in range (1,10): for j in range (1,10): print(i,"X",j,"=",i*j,"\t",end="")#end=""表示不换行 if i == j: print("") break打印结果是：1 X 1 = 1

2018-05-07 14:45:04 24445 3

xiaotwins的博客