scrapy创建过程

本文详细介绍了如何使用Scrapy创建爬虫项目,包括`scrapy startproject`,`scrapy genspider`等命令。还讨论了如何通过管道进行数据持久化存储到CSV文件,并提到了CrawlSpider的使用。此外,文章还涵盖了Scrapy-Redis的设置,如配置远程Redis服务器,并在Windows环境下启动Redis服务。
摘要由CSDN通过智能技术生成
scrapy startproject projectName :创建项目
scrapy genspider  name www.baidu.com(目标url) :创建文件
scrapy crawl spiderName(文件名)
cls :清屏
scrapy crawl spiderName(文件名) -o ./文件名.csv :只能存储parse方法的返回值 文件后缀只能是'json', 'jsonlines', 'jl', 'csv', 'xml', 'marshal', 'pi
    ckle'
管道存储:
    ——编码流程:
        -数据解析
        -将解析数据封装到item对象中(在爬虫文件)
        -将item提交给管道进行持久化存储
        -在process_item中要将接收到的item对象中的数据进行持久化存储
        -在开启管道(setting)
注意图片的伪属性

全站数据爬取
##CrawlSpider的使用
    - 创建Pro
    - cd
    -创建crawel文件(CrawlSpider):
        -scrapy genspider -t crawl xxx www.xxx.com
##scrapy-redis
    -scrapy startproject projectName :创建项目
    -cd
    -scrapy genspider -t crawl xxx www.xxx.com

        -导包:from scrapy_redis.spiders import RedisCrawlSpider
        -将start_urls和allowed_domains注释
        -添加新属性:redis_key='sun',共享调度器队列
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值