![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Scrapy
Regan-Hmily-Du
IT dog
展开
-
Scrapy1.5入门(一)——初识Scrapy
本文为译文,原文见地址:https://docs.scrapy.org/en/latest/intro/overview.html初识ScrapyScrapy是一个用来爬取web网站和提取结构化数据的应用框架,可用于数据挖掘、信息的处理或者归档。即使Scrapy最初是为web抓取(web scraping)而设计的,但它也可以使用api(如Amazon Associates web Se...翻译 2019-01-04 15:20:27 · 336 阅读 · 0 评论 -
Scrapy1.5基本概念(十一)——配置项(Settings)
本文为译文,原文见地址:https://docs.scrapy.org/en/latest/topics/settings.html配置项Scrapy配置项允许你自定义所有Scrapy组件的行为,包括核心、扩展、管道和爬虫本身。配置项的基础结构提供了键值映射的全局命名空间,代码可以在项目的任意地方使用该命名空间来提取配置项的值。配置项还可以通过不同的机制来填充数据,后续我们会介绍。这些...翻译 2019-01-04 15:30:29 · 1001 阅读 · 0 评论 -
Scrapy1.5基本概念(十)——链接提取器(Link Extractors)
本文为译文,原文见地址:https://docs.scrapy.org/en/latest/topics/link-extractors.html链接提取器(Link Extractors)链接提取器是只用于从web页面(scrapy.http.Response对象)中提取链接的对象,这些链接最终会被继续追踪。在Scrapy中有一个可用的scrapy.linkextractors.Lin...翻译 2019-01-04 15:30:20 · 649 阅读 · 0 评论 -
Scrapy1.5基本概念(九)——请求和响应(Requests and Responses)
本文为译文,原文见地址:https://docs.scrapy.org/en/latest/topics/request-response.html请求和响应(Requests and Responses)Scrapy使用Request和Response对象来爬行web站点。通常来说,Request对象在爬虫中生成,并且系统中传递,直到它们到达下载器(Downloader),下载器执行请...翻译 2019-01-04 15:30:12 · 776 阅读 · 0 评论 -
Scrapy1.5基本概念(八)——Feed exports
本文为译文,原文见地址:https://docs.scrapy.org/en/latest/topics/feed-exports.htmlFeed exports于版本0.10中新增。在实现Scrapy时,最常用特性之一是能够正确地存储爬取到的数据,这通常意味着生成一个“导出文件”,其中包含了爬取到的数据(通常被称为“到处提要(export feed)”),以供其他系统使用。Scra...翻译 2019-01-04 15:30:02 · 607 阅读 · 0 评论 -
Scrapy1.5基本概念(七)——数据项管道(Item Pipeline)
本文为译文,原文见地址:https://docs.scrapy.org/en/latest/topics/item-pipeline.html数据项管道(Item Pipeline)在数据项被爬虫爬取到之后,这个数据项将被发送给数据项管道(Item Pipeline),数据项管道将通过一些按照顺序执行的组件来处理这个数据项。每一个数据项管道组件(有时候称为数据项管道)都是一个Python...翻译 2019-01-04 15:25:04 · 364 阅读 · 0 评论 -
Scrapy1.5基本概念(六)——Scrapy shell
本文为译文,原文见地址:https://docs.scrapy.org/en/latest/topics/shell.htmlScrapy shellScrapy shell是一个交互式的shell,你可以在其中非常快速地尝试和调试你的抓取代码,而不必运行爬虫。它本来是用来测试数据提取代码的,但实际上你可以用它来测试任何类型的代码,因为它也是一个常规的Python shell。这个she...翻译 2019-01-04 15:24:46 · 584 阅读 · 0 评论 -
Scrapy1.5基本概念(五)——数据项加载器(Item Loader)
本文为译文,原文见地址:https://docs.scrapy.org/en/latest/topics/loaders.html数据项加载器数据项加载器提供了一个方便的机制来填充爬取到的数据项(Item)。即使数据项可以使用它们自身的类似于字典API的方式来填充数据,但是数据项加载器提供了一个更方便的API从抓取过程中来填充它们。整个过程简单说就是通过自动化一些常见的任务——比如在分配数...翻译 2019-01-04 15:24:24 · 404 阅读 · 1 评论 -
Scrapy1.5基本概念(四)——数据项(Item)
本文为译文,原文见地址:https://docs.scrapy.org/en/latest/topics/items.html数据项本文主要目的是,从非结构化的数据源(比如,web页面)提取出结构化的数据。Scrapy爬虫可以提取数据并返回项Python字典一样的数据。虽然让人觉得很方便和熟悉,但是Python字典缺乏结构化:这是很容易在字段名中输入错误或者返回不一致的数据,特别是在有许多...翻译 2019-01-04 15:23:57 · 427 阅读 · 0 评论 -
Scrapy1.5基本概念(三)——选择器(Selector)
本文为译文,原文见地址:https://docs.scrapy.org/en/latest/topics/selectors.html#module-scrapy.selector选择器当你爬取网页时,通常需要你去执行的任务是从HTML源中提取数据。这里有一些可用的库能够帮你实现这个操作:BeautifulSoup是一个在Python程序员中非常流行的web爬取库,它根据HTML代码的...翻译 2019-01-04 15:23:35 · 893 阅读 · 0 评论 -
Scrapy1.5基本概念(二)——爬虫(Spider)
本文为译文,原文见地址:https://docs.scrapy.org/en/latest/topics/spiders.html爬虫爬虫是一些类,这些类定义了如何对某个站点(或一组站点)进行抓取,包括如何执行抓取(即跟踪链接)以及如何从其页面中提取结构化数据(即抓取项)。换句话说,爬虫是为特定站点(或者在某些情况下是一组站点)爬行和解析页面定义自定义行为的地方。对于爬虫,循环爬取的流程...翻译 2019-01-04 15:23:03 · 721 阅读 · 0 评论 -
Scrapy1.5基本概念(一)——命令行工具
本文为译文,原文见地址:https://docs.scrapy.org/en/latest/topics/commands.html命令行工具于版本0.10新增。通过scrapy命令行工具可以控制Scrapy,这里将其称为“Scrapy tool”,以便将其与子命令区分开来,子命令我们将其称为“commands”或者“Scrapy Commands”。处于多种目的,Scrapy工具...翻译 2019-01-04 15:22:42 · 305 阅读 · 0 评论 -
Scrapy1.5入门(四)——示例
本文为译文,原文见地址:https://docs.scrapy.org/en/latest/intro/examples.html示例通过示例是最好的学习方法,Scrapy也不例外。出于这个原因,有一个名为quotesbot的示例Scrapy项目,你可以使用它来播放和学习有关Scrapy的更多信息。它包含两个用于http://quotes.toscrape.com爬虫,一个使用CSS选择器...翻译 2019-01-04 15:22:17 · 218 阅读 · 0 评论 -
Scrapy1.5入门(三)——Scrapy教程
本文为译文,原文见地址:https://docs.scrapy.org/en/latest/intro/tutorial.htmlScrapy教程在本教程中,我们假设Scrapy已经在你的系统上成功安装了。如果没有,请跳转到安装向导。我们将前往http://quotes.toscrape.com/,一个列出了著名作家名言的网站。本教程会向你展示如下任务:创建一个新的Scrapy工程...翻译 2019-01-04 15:21:54 · 1260 阅读 · 0 评论 -
Scrapy1.5入门(二)——安装向导
本文为译文,原文见地址:https://docs.scrapy.org/en/latest/intro/install.html安装向导安装ScrapyScrapy可以运行在Python2.7版本和Python3.4或者及其以上版本。如果你正在使用Anaconda或者Miniconda,你可以从conda-forge通道来安装这个包,该通道具有Linux、Windows和OS X平台下...翻译 2019-01-04 15:21:16 · 445 阅读 · 0 评论 -
Scrapy1.5基本概念(十二)——异常(Exceptions)
本文为译文,原文见地址:https://docs.scrapy.org/en/latest/topics/exceptions.html异常内置的异常引用下面是一组Scrapy内置的所有异常和这些异常的适用范围。DropItemexception scrapy.exceptions.DropItem这个异常必须由数据项管道阶段抛出,以便停止处理数据项。更多信息见数据项管道。C...翻译 2019-01-04 15:30:49 · 841 阅读 · 0 评论