scrapy
文章平均质量分 88
喵叔哟
Dedicated to promoting and advancing .NET in China for a lifetime.
展开
-
Scrapy Pipeline
Scrapy 中的 Pipeline 为我们提供了处理数据的功能,在实际开发中我们经常使用它来清洗/验证数据、去重和数据保存。在一个项目中会存在多种 Pipeline ,每个 Pipeline 都是一个 class ,其中包含了一些处理的 Item 的方法。 Item 会在这些 Pipeline 中按顺序依次传递,如果其中一个 Pipeline 丢弃了 Item ,那么后面未执行到的 Pipeli...原创 2020-01-20 01:52:31 · 2949 阅读 · 0 评论 -
Scrapy 爬虫模板--SitemapSpider
SitemapSiper 允许我们通过网站的 Sitemap 文件中的 URL 来爬取一个网站。Sitemap 文件包含整个网站的每个网址链接,其中包含了上次更新时间、更新频率以及网址的权重(重要程度)。常见的 Sitemap 文件格式有 TXT 、 XML 和 HTML 格式,大部分网站是以 XML 格式来显示的。下面我们来看一下 CSDN 网站的 Sitemap 文件格式。我们来讲解一下上...原创 2020-01-08 23:47:48 · 1815 阅读 · 0 评论 -
Scrapy 爬虫模板--CSVFeedSpider
这一篇文章我要讲解一下 Scrapy 爬虫模板中的 CSVFeedSpider 模板,该模板可以说是目前 Scrapy 中最简单的模板,因此这篇文章不会有太长的篇幅。CSVFeedSpider 模板主要用于解析 CSV 文件,它是以行为单位来进行迭代,每迭代一行调用一次 parse_row() 方法。该模板常用属性如下:delimiter:字段分隔符,默认英文逗号分隔;quotechar:C...原创 2020-01-06 00:11:34 · 1242 阅读 · 0 评论 -
Scrapy 爬虫模板--XMLFeedSpider
XMLFeedSpider 主要用于 RSS 的爬取。RSS 是基于 XML 的信息局和技术。这篇文章的最后一下小结我会利用爬取经济观察网 RSS 的例子来讲解它的具体用法。现在我们先看一下 XMLFeedSpider 的常用属性。零、常用属性iterator:迭代器,主要用来分析 RSS 源,可用的迭代器有三种:iternode:高性能的正则表达式迭代器,是默认迭代器html:加载...原创 2020-01-01 22:58:44 · 1154 阅读 · 0 评论 -
Scrapy 爬虫模板--CrawlSpider
从这篇文章开始,我将利用三篇文章分别讲解 Scrapy 爬虫模板。 Scrapy 爬虫模板包含四个模板:Basic :最基本的模板,这里我们不会讲解;CrawlSpiderXMLFeedSpiderCSVFEEDSpider这篇文章我先来讲解一下 CrawlSpider 模板。零、讲解CrawlSpider 是常用的 Spider ,通过定制规则来跟进链接。对于大部分网站我们可以...原创 2019-12-25 23:38:43 · 1834 阅读 · 2 评论 -
Scrapy spider 主要方法
Spider 类是 Scrapy 中的主要核心类,它定义了爬取网站的规则。 Spider 是循环爬取,它的而爬取步骤是:start_requests 方法用 start_urls 中的 URL 初始化 Request ,然后将请求返回结果 Response 作为参数传递给 parse 方法;parse 是回调函数,它分析传递过来的 Response 的内容,从中提取出 Item 对象、 di...原创 2019-12-23 23:43:55 · 1605 阅读 · 0 评论 -
Scrapy Shell
这篇文章很简单,可以说是 Scrapy 系列中最短最简单的文章。本篇文章主要讲解 Scrapy Shell 的相关知识。零、 Scrapy ShellScrapy Shell 是一个交互终端,可以在没有启动 Spider 的情况下调试代码。我们在开发爬虫时会经常利用它来测试我们编写的 XPath 或者 Css 表达式是否可以提取到正确的数据。它的语法也很简单:scrapy shell [ur...原创 2019-12-18 23:47:46 · 1060 阅读 · 0 评论 -
Scrspy 命令
Scrapy 中的命令在开发中会经常用到,可以说没有命令就没有 Scrapy ,下面我就来讲解一下 Scrapy 常用的命令。零、命令分类Scrapy 具有两种类型的命令,分别是项目命令和全局命令。所谓的项目命令就是在项目中执行的命令,而全局命令则是指不需要在项目中运行的命令(感觉这段有点废话,o(*≧▽≦)ツ)。项目命令项目命令包含如下 7 个。命令说明craw...原创 2019-12-15 14:59:36 · 1446 阅读 · 0 评论 -
二、安装 Scrapy
零、安装 ScrapyScrapy 必须运行在 CPython 或 PyPy 下的 Python 2.7 或 Python 3.5 及以上平台。如果您使用的是 Anaconda 或 Miniconda ,则可以从 conda-forge 安装该软件包,它包含适用于 Linux 、 Windows 和 OS X 的最新软件包。如果要使用 conda命令安装 Scrapy 只需运行以下命令:c...原创 2019-11-23 18:54:24 · 3457 阅读 · 0 评论 -
一、了解Scrapy
零、什么是 ScrapyScrapy 是一个用于爬取网站并提取结构化数据的高效爬虫框架,它可以用于各种应用程序/项目,比如数据挖掘、信息处理和档案处理等。最初设计 Scrapy 是用来爬取 Web 数据的,但是现在也可以将它用于爬取 API 信息和作为通用 Web 搜索器来提取数据。一、演示项目为了向您展示Scrapy带来的好处,我将使用最简单的方式介绍 Scrapy 的示例。下面我们以爬取...原创 2019-11-22 01:14:28 · 1052 阅读 · 0 评论