Scrapy中的csvfeed爬取CSV源

我们可以用csvfeed模版创建的爬虫爬取CSV文件的数据,CSV文件是一种可以与表格数据相互转化的文件格式。

一、创建项目和爬虫文件

#在需要创建项目的文件夹下,打开命令行,运行下面命令
python -m scrapy startproject csvpjt
cd csvpit
python -m scrapy genspider -t csvfeed steve 网站名(例如xxx.com)

二、爬虫文件格式

# -*- coding: utf-8 -*-
from scrapy.spiders import CSVFeedSpider

from csvpjt.items import CsvpjtItem


class SteveSpider(CSVFeedSpider):
    name = 'steve'
    allowed_domains = ['xxx.com']
    start_urls = ['http://xxx.com/mydata.csv']
    # headers:主要存放在CSV文件中包含的用于提取字段的行信息的列表
    headers = ['name', 'sex', 'addr', 'email']
    # delimiter:主要存放字段之间的间隔符
    delimiter = ','

    # Do any adaptations you need here
    #def adapt_response(self, response):
    #    return response

    #接收一个response对象并进行对应的处理
    def parse_row(self, response, row):
        item = CsvpjtItem()
        item["name"] = row['name'].encode()
        item["sex"] = row['sex'].encode()
        print("名字是:")
        print(item["name"])
        print("性别是:")
        print(item["sex"])
        print("--------------------------------------")
        return item

三、运行程序:

python -m scrapy crawl steve --nolog

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值