Scrapy中的csvfeed爬取CSV源

最新推荐文章于 2022-06-09 17:25:22 发布

DmrForever

最新推荐文章于 2022-06-09 17:25:22 发布

阅读量727

点赞数

分类专栏：笔记总结 python 文章标签： Scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/SteveForever/article/details/81836131

版权

笔记总结同时被 2 个专栏收录

53 篇文章 0 订阅

订阅专栏

18 篇文章 0 订阅

订阅专栏

我们可以用csvfeed模版创建的爬虫爬取CSV文件的数据，CSV文件是一种可以与表格数据相互转化的文件格式。

一、创建项目和爬虫文件

#在需要创建项目的文件夹下，打开命令行，运行下面命令
python -m scrapy startproject csvpjt
cd csvpit
python -m scrapy genspider -t csvfeed steve 网站名(例如xxx.com)

二、爬虫文件格式

# -*- coding: utf-8 -*-
from scrapy.spiders import CSVFeedSpider

from csvpjt.items import CsvpjtItem


class SteveSpider(CSVFeedSpider):
    name = 'steve'
    allowed_domains = ['xxx.com']
    start_urls = ['http://xxx.com/mydata.csv']
    # headers:主要存放在CSV文件中包含的用于提取字段的行信息的列表
    headers = ['name', 'sex', 'addr', 'email']
    # delimiter：主要存放字段之间的间隔符
    delimiter = ','

    # Do any adaptations you need here
    #def adapt_response(self, response):
    #    return response

    #接收一个response对象并进行对应的处理
    def parse_row(self, response, row):
        item = CsvpjtItem()
        item["name"] = row['name'].encode()
        item["sex"] = row['sex'].encode()
        print("名字是：")
        print(item["name"])
        print("性别是：")
        print(item["sex"])
        print("--------------------------------------")
        return item

三、运行程序：

python -m scrapy crawl steve --nolog

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄7年

116
原创

295
点赞

417
收藏

186
粉丝

关注

私信

热门文章

分类专栏

AI篇 2篇
c++ 24篇
Linux 4篇
Rust 11篇
golang篇 1篇
FFI 3篇
提效工具 1篇
Qt 6篇
python 18篇
vim 2篇
笔记总结 53篇
技术分享 14篇
逸闻趣事 2篇

最新评论

在Linux上编译Windows平台的Rust程序
DmrForever: 看一下报错信息呢，或者用file 命令看一下可执行程序，是不是可执行程序和开发板架构（uname -a）不一样，导致不能执行
在Linux上编译Windows平台的Rust程序
ironting: 多谢，再请教下，我成功交叉编译出Linux开发板对应架构的可执行文件，然后到板子上运行，提示没找到文件，这是因为板子上系统缺少库吗，应该怎么解决呢
在Linux上编译Windows平台的Rust程序
DmrForever: 没有显示指定会自动去找的，找不到会报错。也可以显示指定配置 .cargo/config.toml：你可以在项目目录下创建 .cargo/config.toml 文件，并配置链接器。例如： [target.x86_64-pc-windows-gnu] linker = "x86_64-w64-mingw32-gcc"
在Linux上编译Windows平台的Rust程序
ironting: 请教，为什么不需要配置linker呢，执行cargo build --target x86_64-pc-windows-gnu 就指定了linker吗，为什么编译其他平台需要指定呢？
k3s配置docker容器/dev/shm
CSDN-Ada助手: 推荐云原生入门技能树：https://edu.csdn.net/skill/cloud_native?utm_source=AI_act_cloud_native

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。