pythonscrapy爬虫教程_Scrapy爬虫入门教程四 Spider（爬虫）

最新推荐文章于 2022-06-16 20:13:21 发布

weixin_39950552

最新推荐文章于 2022-06-16 20:13:21 发布

阅读量339

点赞数

文章标签： pythonscrapy爬虫教程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39950552/article/details/111442507

版权

[toc]

开发环境：

Python 3.6.0 版本 (当前最新)

Scrapy 1.3.2 版本 (当前最新)

Spider

爬虫是定义如何抓取某个网站(或一组网站)的类，包括如何执行抓取(即关注链接)以及如何从其网页中提取结构化数据(即抓取项目)。换句话说，Spider是您定义用于为特定网站(或在某些情况下，一组网站)抓取和解析网页的自定义行为的位置。

对于爬虫，循环经历这样的事情：

您首先生成用于抓取第一个URL的初始请求，然后指定要使用从这些请求下载的响应调用的回调函数。

第一个执行的请求通过调用 start_requests()(默认情况下)Request为在start_urls和中指定的URL生成的parse方法获取，并且该方法作为请求的回调函数。

在回调函数中，您将解析响应(网页)，并返回带有提取的数据，Item对象， Request对象或这些对象的可迭代的对象。这些请求还将包含回调(可能是相同的)，然后由Scrapy下载，然后由指定的回调处理它们的响应。

在回调函数中，您通常使用选择器来解析页面内容 (但您也可以使用BeautifulSoup，lxml或您喜欢的任何机制)，并使用解析的数据生成项目。

最后，从爬虫返回的项目通常将持久存储到数据库(在某些项目管道中)或使用Feed导出写入文件。

即使这个循环(或多或少)适用于任何种类的爬虫，有不同种类的默认爬虫捆绑到Scrapy中用于不同的目的。我们将在这里谈论这些类型。

class scrapy.spiders.Spider

这是最简单的爬虫，每个其他爬虫必须继承的爬虫(包括与Scrapy捆绑在一起的爬虫，以及你自己写的爬虫)。它不提供任何特殊功能。它只是提供了一个默认start_requests()实现，它从start_urlsspider属性发送请求，并parse 为每个结果响应调用spider的方法。

name

定义此爬虫名称的字符串。爬虫名称是爬虫如何由Scrapy定位(和实例化)，因此它必须是唯一的。但是，没有什么能阻止你实例化同一个爬虫的多个实例。这是最重要的爬虫属性，它是必需的。

如果爬虫抓取单个域名，通常的做法是在域后面命名爬虫。因此，例如，抓取的爬虫mywebsite.com通常会被调用 mywebsite。

注意

在Python 2中，这必须是ASCII。

allowed_domains

允许此爬虫抓取的域的字符串的可选列表，指定一个列表可以抓取，其它就不会抓取了。

start_urls

当没有指定特定网址时，爬虫将开始抓取的网址列表。

custom_settings

运行此爬虫时将从项目宽配置覆盖的设置字典。它必须定义为类属性，因为设置在实例化之前更新。

有关可用内置设置的列表，请参阅：内置设置参考。

crawler

此属性from_crawler()在初始化类后由类方法设置，并链接Crawler到此爬虫实例绑定到的对象。

Crawlers在项目中封装了很多组件，用于单个条目访问(例如扩展，中间件，信号管理器等)。有关详情，请参阅抓取工具API。

settings

运行此爬虫的配置。这是一个 Settings实例，有关此主题的详细介绍，请参阅设置主题。

logger

用Spider创建的Python记录器name。您可以使用它通过它发送日志消息，如记录爬虫程序中所述。

from_crawler(crawler，* args，** kwargs )

是Scrapy用来创建爬虫的类方法。

您可能不需要直接覆盖这一点，因为默认实现充当方法的代理，__init__()使用给定的参数args和命名参数kwargs调用它。

尽管如此，此方法在新实例中设置crawler和settings属性，以便以后可以在爬虫程序中访问它们。

参数：

crawler(Crawlerinstance) - 爬虫将绑定到的爬虫

args(list) - 传递给init()方法的参数

kwargs(dict) - 传递给init()方法的关键字参数

start_requests()

此方法必须返回一个可迭代的第一个请求来抓取这个爬虫。

有了start_requests()，就不写了start_urls，写了也没有用。

默认实现是：start_urls，但是可以复写的方法start_requests。

例如，如果您需要通过使用POST请求登录来启动，您可以：

class MySpider(scrapy.Spider):

name = 'myspider'

def start_requests(self):

return [scrapy.FormRequest("http://www.example.com/login",

formdata={'user': 'john', 'pass': 'secret'},

callback=self.logged_in)]

def logged_in(self, response):

# here you would extract links to follow and return Requests for

# each of them, with another callback

pass

make_requests_from_url(url)

一种接收URL并返回Request 对象(或Request对象列表)进行抓取的方法。此方法用于在方法中构造初始请求 start_requests()，并且通常用于将URL转换为请求。

除非重写，此方法返回具有方法的Requests parse() 作为它们的回调函数，并启用dont_filter参数(Request有关更多信息，请参阅类)。

parse(response)

这是Scrapy用于处理下载的响应的默认回调，当它们的请求没有指定回调时。

该parse方法负责处理响应并返回所抓取的数据或更多的URL。其他请求回调具有与Spider类相同的要求。

此方法以及任何其他请求回调必须返

最低0.47元/天解锁文章

weixin_39950552

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
pythonscrapy爬虫教程_Scrapy爬虫入门教程四 Spider（爬虫）

[toc]开发环境：Python 3.6.0 版本 (当前最新)Scrapy 1.3.2 版本 (当前最新)Spider爬虫是定义如何抓取某个网站(或一组网站)的类，包括如何执行抓取(即关注链接)以及如何从其网页中提取结构化数据(即抓取项目)。换句话说，Spider是您定义用于为特定网站(或在某些情况下，一组网站)抓取和解析网页的自定义行为的位置。对于爬虫，循环经历这样的事情：您首先生成用于抓取第...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。