scrapy 两类item_scrapy中item的处理技巧

scrapy中item的处理技巧

Field 的类型

Scrapy中只有一种类型,就是 scrapy.Field(),类似于字典。

url 的拼接

meta

meta 在 Request 中作为参数,是一个字典。放在yield Request()中。

yield Request(url=parse.urljoin(response.url, post_url), meta={"front_image_url":image_url}, callback=self.parse_detail)

这样在回调函数callback=self.parse_detail中进行调用,调用的方法是

front_image_url = response.meta.get("front_image_url","") # 文章封面图

urljoin() 可以拼接两个网址,详见《urljoin()拼接两个网址》。

item的使用

1》定义 item

class JobBoleArticleItem(scrapy.Item):

title = scrapy.Field()

create_date = scrapy.Field()

url = scrapy.Field()

url_object_id = scrapy.Field()

front_image_url = scrapy.Field()

front_image_path = scrapy.Field()

praise_nums = scrapy.Field()

comment_nums = scrapy.Field()

fav_nums = scrapy.Field()

tags = scrapy.Field()

content = scrapy.Field()

2》item获取数据

item在spider中实例化,并获取数据。

from ArticleSpider.items import JobBoleArticleItem

class JobboleSpider(scrapy.Spider):

#...

def parse(self, response):

#...

next_url = response.css(".next.page-numbers::attr(href) ").extract_first()

if next_url:

yield Request(url=next_url, callback=parse)

def parse_detail(self, response):

# 引入 item 并实例化

article_item = JobBoleArticleItem()

# ...

article_item["title"] = title

article_item["url"] = response.url

article_item["create_date"] = create_date

article_item["front_image_url"] = front_image_url

article_item["praise_nums"] = praise_nums

article_item["comment_nums"] = comment_nums

article_item["fav_nums"] = fav_nums

article_item["tags"] = tags

article_item["content"] = content

yield article_item

最后 yield到pipelines中处理。

3》pipelines 处理 item

首先打开settings中的pipelines注释,只要把注释取消掉即可。

ITEM_PIPELINES = {

'ArticleSpider.pipelines.ArticlespiderPipeline': 300,

}

在pipelines中debug。在第二行def..与第三行return item打断点。

class ArticlespiderPipeline(object):

def process_item(self, item, spider):

return item

debug运行到断点处,看item的变量_values,可以看到数据结果。

这时,pipelines可以:drop item 或者 存储item。

4》下载图片

配置下载pipelines

在settings中,加入下载图片的pipeline。

在源码中可以找到:/Users/macroot/virtualenvs/article_spider/lib/python3.5/site-packages/scrapy/pipelines/images.py。

在pycharm中的site-packages中可以找到。

settings中设定目录

在Article_spider目录(与settings文件在同一个目录)中,设定item中哪个是图片下载地址(IMAGES_URLS_FIELD),文件夹的相对路径,文件下载存储目录(IMAGES_STORE)。

import os

#...

IMAGES_URLS_FIELD = "front_image_url"

project_dir = os.path.abspath(os.path.dirname(__file__))

IMAGES_STORE = os.path.join(project_dir, "images")

两个注意点,

pip install -i https://pypi.douban.com/simple pillow

article_item["front_image_url"] = [front_image_url] 在spider中获取的数据,以list形式提交。

最后运行main.py文件,就可以开始下载。

下载路径绑定:定制自己的pipelines

存储的路径也需要与item绑定。定制ImagesPipeline

from scrapy.pipelines.images import ImagesPipeline

#...

class ArticleImagePipeline(ImagesPipeline):

ImagesPipeline中可以过滤下载图片的大小,放在settings中,要求下载的图片最小高度和最小宽度都是100.

IMAGES_MIN_HEIGHT = 100

IMAGES_MIN_WIDTH = 100

在scrapy.pipelines.images中,搜索IMAGES_MIN_HEIGHT 和 IMAGES_MIN_WIDTH,可以看到有定义。

self.min_height = settings.getint(

resolve('IMAGES_MIN_HEIGHT'), self.MIN_HEIGHT

)

self.thumbs = settings.get(

resolve('IMAGES_THUMBS'), self.THUMBS

)

(这里只是演示,不需要设置)

scrapy.pipelines.images中,这个函数接收的是list或迭代器,如果是一个值就会出错。

获取url之后,返回一个 Request,并交给下载器。

def get_media_requests(self, item, info):

return [Request(x) for x in item.get(self.images_urls_field, [])]

可以用此函数获取存储地址。重载该函数。

def item_completed(self, results, item, info):

if isinstance(item, dict) or self.images_result_field in item.fields:

item[self.images_result_field] = [x for ok, x in results if ok]

return item

路径实际是存放在 result里面。通过 result 获取文件实际的存储路径。

首先,不知道 result 的结构,下面写pass打断点。

class ArticleImagePipeline(ImagesPipeline):

def item_completed(self, results, item, info):

pass

首先,要把images/full文件删除掉/full/文件夹,如果不删,就不会下载,scrapy会查询。

然后,把settings中的图片下载pipeline改为自己定制的。

list中嵌套turple

results是一个list,每一个元素是一个turple。0这个turple里面第一个值 0=True,表示是否成功。第二个值是一个字典,里面有一个键path。path的值就是文件路径。

results 是一个 turple。对于for ok表示是否成功,value in results。

因为results = (True, {dict}),所以Python自动识别字典。

class ArticleImagePipeline(ImagesPipeline):

def item_completed(self, results, item, info):

for ok, value in results:

image_file_path = value["path"]

这里可以参看《list中嵌套turple》

最后要把item return 回去,因为还有其他pipelines要处理。

为了核实是否能够保存图片的路径,在下面pipeline的第三行打断点

class ArticlespiderPipeline(object):

def process_item(self, item, spider):

return item

可以查看其中value。

md5处理url

参考《hashlib.md5 处理 url》。

from ArticleSpider.utils.common import get_md

#...

article_item["url_object_id"] = get_md(response.url)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值