scrapy 两类item_scrapy item的详细讲解

最新推荐文章于 2022-11-21 14:15:05 发布

又逢账号起名时

最新推荐文章于 2022-11-21 14:15:05 发布

阅读量662

点赞数

文章标签： scrapy 两类item

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_36207513/article/details/113021928

版权

首先要明确要获取的目标内容然后编写items 文件：定义Item非常简单，只需要继承scrapy.Item类，并将所有字段都定义为scrapy.Field类型即可

示例：

import scrapy

class Product (scrapy.Item):

name = scrapy.Field()

price = scrapy.Field()

stock = scrapy.Field()

last_updated = scrapy.Field(serializer=str)

spider文件：

spider的类及其属性和方法：

class scrapy.spiders.Spider

每个spider都是继承这个类其仅仅请求给定的 start_urls/start_requests ，

并根据返回的结果(resulting responses)调用spider的 parse

name#爬虫名称，str，必须

allowed_domains#默认跟踪的url必须在这个域中，下面这个方法解决长因此的问题

禁用OffsiteMiddleware的时候可以使不在allowed_domains的URL也可以跟进

start_urls#url列表

start_requests()#

未指定URL启用，使用start_url中url跑默认一次，可定制初次发送的请求比如post，

指定URL时默认make_request_from_url()被调用创建request对象(一次性创建)

def start_requests(self):##标准写法

return [scrapy.FormRequest("http://www.example.com/login",formdata={'user': 'john', 'pass': 'secret'},callback=self.logged_in)]

make_requests_from_url(url)#有start_request()就覆盖了他

接收URL返回request对象其中包含parse()作为回调函数dont_filter自动过滤属性默认开启，默认被start_requests()调用

parse(response)#不指定回调函数，默认被指定，负责处理response并返回处理的数据以及(/或)跟进的URL，必须返回一个包含 Request 及(或) Item 的可迭代的对象

样例：代码写的啰嗦，这里展示了使用start_request()方法覆盖start_url

import scrapy

from myproject.items import MyItem

class MySpider(scrapy.Spider):

name = 'example.com'

allowed_domains = ['example.com']

def start_requests(self):

yield scrapy.Request('http://www.example.com/1.html', self.parse)

yield scrapy.Request('http://www.example.com/2.html', self.parse)

yield scrapy.Request('http://www.example.com/3.html', self.parse)

def parse(self, response):

for h3 in response.xpath('//h3').extract():

yield MyItem(title=h3)

for url in response.xpath('//a/@href').extract():

yield scrapy.Request(url, callback=self.parse)

scrapy也支持使用-a的方式在命令行上去为爬虫添加属性：

scrapy crawl myspider -a category=electronics！

又逢账号起名时

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
scrapy 两类item_scrapy item的详细讲解

首先要明确要获取的目标内容然后编写items 文件：定义Item非常简单，只需要继承scrapy.Item类，并将所有字段都定义为scrapy.Field类型即可示例：import scrapyclass Product (scrapy.Item):name = scrapy.Field()price = scrapy.Field()stock = scrapy.Field()last...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。