scrapy startproject projectName :创建项目 scrapy genspider name www.baidu.com(目标url) :创建文件 scrapy crawl spiderName(文件名) cls :清屏 scrapy crawl spiderName(文件名) -o ./文件名.csv :只能存储parse方法的返回值 文件后缀只能是'json', 'jsonlines', 'jl', 'csv', 'xml', 'marshal', 'pi ckle' 管道存储: ——编码流程: -数据解析 -将解析数据封装到item对象中(在爬虫文件) -将item提交给管道进行持久化存储 -在process_item中要将接收到的item对象中的数据进行持久化存储 -在开启管道(setting) 注意图片的伪属性 全站数据爬取 ##CrawlSpider的使用 - 创建Pro - cd -创建crawel文件(CrawlSpider): -scrapy genspider -t crawl xxx www.xxx.com ##scrapy-redis -scrapy startproject projectName :创建项目 -cd -scrapy genspider -t crawl xxx www.xxx.com -导包:from scrapy_redis.spiders import RedisCrawlSpider -将start_urls和allowed_domains注释 -添加新属性:redis_key='sun',共享调度器队列
scrapy创建过程
最新推荐文章于 2022-08-14 19:57:07 发布
本文详细介绍了如何使用Scrapy创建爬虫项目,包括`scrapy startproject`,`scrapy genspider`等命令。还讨论了如何通过管道进行数据持久化存储到CSV文件,并提到了CrawlSpider的使用。此外,文章还涵盖了Scrapy-Redis的设置,如配置远程Redis服务器,并在Windows环境下启动Redis服务。
摘要由CSDN通过智能技术生成