Python 爬虫，scrapy，定义Item，封装提取的数据项

最新推荐文章于 2022-01-01 12:47:02 发布

houyanhua1

最新推荐文章于 2022-01-01 12:47:02 发布

阅读量1.9k

点赞数 2

分类专栏： Python+ 文章标签： Python 爬虫 scrapy Item

本文链接：https://blog.csdn.net/houyanhua1/article/details/86542655

版权

本文介绍如何在Python Scrapy项目中定义Item，用于封装爬虫从网页提取的数据项。通过编辑items.py文件创建自定义数据结构，并在对应的爬虫文件中将抓取信息存入Item对象。

摘要由CSDN通过智能技术生成

项目名/items.py（定义Item）：

# -*- coding: utf-8 -*-
import scrapy

# 定义Item，继承scrapy.Item。 scrapy.Item 类似字典类型,可以通过[]获取和设置值,但不可以动态添加未定义的属性字段。
class TencentItem(scrapy.Item):
    title = scrapy.Field()
    position = scrapy.Field()
    publish_date = scrapy.Field()

项目名/spiders/爬虫名.py（爬虫，提取数据并封装到 Item 中）：

# -*- coding: utf-8 -*-
import scrapy
from tencent.items import TencentItem  # 导入


class HrSpider(scrapy.Spider):
    name = 'hr'  # 爬虫名
    allowed_domains = ['tencent.com']
    start_urls = ['http://hr.tencent.com/position.php']

    def parse(self, response):
        tr_list = response.xpath("//table[@class='tablelist']/tr")[1:-1]
        for tr in tr_list:
            # 实例化Item对象