scrapy 两类item_scrapy中item的处理技巧

最新推荐文章于 2022-09-12 05:58:36 发布

weixin_39524834

最新推荐文章于 2022-09-12 05:58:36 发布

阅读量664

点赞数

文章标签： scrapy 两类item

本文链接：https://blog.csdn.net/weixin_39524834/article/details/113682105

版权

scrapy中item的处理技巧

Field 的类型

Scrapy中只有一种类型，就是 scrapy.Field()，类似于字典。

url 的拼接

meta

meta 在 Request 中作为参数，是一个字典。放在yield Request()中。

yield Request(url=parse.urljoin(response.url, post_url), meta={"front_image_url":image_url}, callback=self.parse_detail)

这样在回调函数callback=self.parse_detail中进行调用，调用的方法是

front_image_url = response.meta.get("front_image_url","") # 文章封面图

urljoin() 可以拼接两个网址，详见《urljoin()拼接两个网址》。

item的使用

1》定义 item

class JobBoleArticleItem(scrapy.Item):

title = scrapy.Field()

create_date = scrapy.Field()

url = scrapy.Field()

url_object_id = scrapy.Field()

front_image_url = scrapy.Field()

front_image_path = scrapy.Field()

praise_nums = scrapy.Field()

comment_nums = scrapy.Field()

fav_nums = scrapy.Field()

tags = scrapy.Field()

content = scrapy.Field()

2》item获取数据

item在spider中实例化，并获取数据。

from ArticleSpider.items import JobBoleArticleItem

class JobboleSpider(scrapy.Spider):

#...

def parse(self, response):

#...

next_url = response.css(".next.page-numbers::attr(href) ").extract_first()

if next_url:

yield Request(url=next_url, callback=parse)

def parse_detail(self, response):

# 引入 item 并实例化

article_item = JobBoleArticleItem()

# ...

article_item["title"] = title

article_item["url"] = response.url

article_item["create_date"] = create_date

article_item["front_image_url"] = front_image_url

article_item["praise_nums"] = praise_nums

article_item["comment_nums"] = comment_nums

article_item["fav_nums"] = fav_nums

article_item["tags"] = tags

article_item["content"] = content

yield article_item

最后 yield到pipelines中处理。

3》pipelines 处理 item

首先打开settings中的pipelines注释，只要把注释取消掉即可。

ITEM_PIPELINES = {

'ArticleSpider.pipelines.ArticlespiderPipeline': 300,

}

在pipelines中debug。在第二行def..与第三行return item打断点。

class ArticlespiderPipeline(object):

def process_item(self, item, spider):

return item

debug运行到断点处，看item的变量_values，可以看到数据结果。

这时，pipelines可以：drop item 或者存储item。

4》下载图片

配置下载pipelines

在settings中，加入下载图片的pipeline。

在源码中可以找到：/Users/macroot/virtualenvs/article_spider/lib/python3.5/site-packages/scrapy/pipelines/images.py。

在pycharm中的site-packages中可以找到。

settings中设定目录

在Article_spider目录(与settings文件在同一个目录)中，设定item中哪个是图片下载地址(IMAGES_URLS_FIELD)，文件夹的相对路径，文件下载存储目录(IMAGES_STORE)。

import os

#...

IMAGES_URLS_FIELD = "front_image_url"

project_dir = os.path.abspath(os.path.dirname(__file__))

IMAGES_STORE = os.path.join(project_dir, "images")

两个注意点，

pip install -i https://pypi.douban.com/simple pillow

article_item["front_image_url"] = [front_image_url] 在spider中获取的数据，以list形式提交。

最后运行main.py文件，就可以开始下载。

下载路径绑定：定制自己的pipelines

存储的路径也需要与item绑定。定制ImagesPipeline

from scrapy.pipelines.images import ImagesPipeline

#...

class ArticleImagePipeline(ImagesPipeline):

ImagesPipeline中可以过滤下载图片的大小，放在settings中，要求下载的图片最小高度和最小宽度都是100.

IMAGES_MIN_HEIGHT = 100

IMAGES_MIN_WIDTH = 100

在scrapy.pipelines.images中，搜索IMAGES_MIN_HEIGHT 和 IMAGES_MIN_WIDTH，可以看到有定义。

self.min_height = settings.getint(

resolve('IMAGES_MIN_HEIGHT'), self.MIN_HEIGHT

)

self.thumbs = settings.get(

resolve('IMAGES_THUMBS'), self.THUMBS

)

(这里只是演示，不需要设置)

scrapy.pipelines.images中，这个函数接收的是list或迭代器，如果是一个值就会出错。

获取url之后，返回一个 Request，并交给下载器。

def get_media_requests(self, item, info):

return [Request(x) for x in item.get(self.images_urls_field, [])]

可以用此函数获取存储地址。重载该函数。

def item_completed(self, results, item, info):

if isinstance(item, dict) or self.images_result_field in item.fields:

item[self.images_result_field] = [x for ok, x in results if ok]

return item

路径实际是存放在 result里面。通过 result 获取文件实际的存储路径。

首先，不知道 result 的结构，下面写pass打断点。

class ArticleImagePipeline(ImagesPipeline):

def item_completed(self, results, item, info):

pass

首先，要把images/full文件删除掉/full/文件夹，如果不删，就不会下载，scrapy会查询。

然后，把settings中的图片下载pipeline改为自己定制的。

list中嵌套turple

results是一个list，每一个元素是一个turple。0这个turple里面第一个值 0=True，表示是否成功。第二个值是一个字典，里面有一个键path。path的值就是文件路径。

results 是一个 turple。对于for ok表示是否成功，value in results。

因为results = (True, {dict})，所以Python自动识别字典。

class ArticleImagePipeline(ImagesPipeline):

def item_completed(self, results, item, info):

for ok, value in results:

image_file_path = value["path"]

这里可以参看《list中嵌套turple》

最后要把item return 回去，因为还有其他pipelines要处理。

为了核实是否能够保存图片的路径，在下面pipeline的第三行打断点

class ArticlespiderPipeline(object):

def process_item(self, item, spider):

return item

可以查看其中value。

md5处理url

参考《hashlib.md5 处理 url》。

from ArticleSpider.utils.common import get_md

#...

article_item["url_object_id"] = get_md(response.url)

weixin_39524834

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
scrapy 两类item_scrapy中item的处理技巧

scrapy中item的处理技巧Field 的类型Scrapy中只有一种类型，就是 scrapy.Field()，类似于字典。url 的拼接metameta 在 Request 中作为参数，是一个字典。放在yield Request()中。yield Request(url=parse.urljoin(response.url, post_url), meta={"front_image_url"...
复制链接

扫一扫