scrapy创建过程

最新推荐文章于 2022-08-14 19:57:07 发布

XJH_2021

最新推荐文章于 2022-08-14 19:57:07 发布

阅读量238

点赞数

文章标签： python 爬虫 pycharm mysql

本文链接：https://blog.csdn.net/XJH_2021/article/details/120838825

版权

本文详细介绍了如何使用Scrapy创建爬虫项目，包括`scrapy startproject`，`scrapy genspider`等命令。还讨论了如何通过管道进行数据持久化存储到CSV文件，并提到了CrawlSpider的使用。此外，文章还涵盖了Scrapy-Redis的设置，如配置远程Redis服务器，并在Windows环境下启动Redis服务。

摘要由CSDN通过智能技术生成

scrapy startproject projectName :创建项目
scrapy genspider  name www.baidu.com（目标url） ：创建文件
scrapy crawl spiderName（文件名）
cls ：清屏
scrapy crawl spiderName（文件名） -o ./文件名.csv ：只能存储parse方法的返回值 文件后缀只能是'json', 'jsonlines', 'jl', 'csv', 'xml', 'marshal', 'pi
    ckle'
管道存储:
    ——编码流程：
        -数据解析
        -将解析数据封装到item对象中（在爬虫文件）
        -将item提交给管道进行持久化存储
        -在process_item中要将接收到的item对象中的数据进行持久化存储
        -在开启管道(setting)
注意图片的伪属性

全站数据爬取
##CrawlSpider的使用
    - 创建Pro
    - cd
    -创建crawel文件（CrawlSpider）：
        -scrapy genspider -t crawl xxx www.xxx.com
##scrapy-redis
    -scrapy startproject projectName :创建项目
    -cd
    -scrapy genspider -t crawl xxx www.xxx.com

        -导包：from scrapy_redis.spiders import RedisCrawlSpider
        -将start_urls和allowed_domains注释
        -添加新属性：redis_key='sun',共享调度器队列