Python 爬虫,scrapy,定义Item,封装提取的数据项

本文介绍如何在Python Scrapy项目中定义Item,用于封装爬虫从网页提取的数据项。通过编辑items.py文件创建自定义数据结构,并在对应的爬虫文件中将抓取信息存入Item对象。
摘要由CSDN通过智能技术生成

 

项目名/items.py(定义Item):

# -*- coding: utf-8 -*-
import scrapy

# 定义Item,继承scrapy.Item。 scrapy.Item 类似字典类型,可以通过[]获取和设置值,但不可以动态添加未定义的属性字段。
class TencentItem(scrapy.Item):
    title = scrapy.Field()
    position = scrapy.Field()
    publish_date = scrapy.Field()

项目名/spiders/爬虫名.py(爬虫,提取数据并封装到 Item 中):

# -*- coding: utf-8 -*-
import scrapy
from tencent.items import TencentItem  # 导入


class HrSpider(scrapy.Spider):
    name = 'hr'  # 爬虫名
    allowed_domains = ['tencent.com']
    start_urls = ['http://hr.tencent.com/position.php']

    def parse(self, response):
        tr_list = response.xpath("//table[@class='tablelist']/tr")[1:-1]
        for tr in tr_list:
            # 实例化Item对象
            
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值