python爬虫框架scrapy

最新推荐文章于 2022-03-08 22:00:00 发布

Protocode

最新推荐文章于 2022-03-08 22:00:00 发布

阅读量355

点赞数

分类专栏： python 文章标签： python爬虫 scrapy

本文链接：https://blog.csdn.net/cs13970021734/article/details/102918252

版权

2 篇文章 0 订阅

订阅专栏

一、使用pip3下载scrapy框架,安装过程中会自动下载相关依赖

pip3 install scracpy

二、下载完成后，创建软链接到/bin中

ln -s /usr/local/scrapy /bin/scrapy

三、创建项目目录 demo并使用scrapy初始化项目，进入到项目demo下。

mkdir demo
cd demo
scrapy startproject demo domain.com #初始化scrapy项目，demo项目名 domain.com 允许爬虫抓取的域名
cd domain.com
cd demo

四、scrapy项目结构分析

1-items.py 定义爬虫抓取到的数据映射实体：如下图

2-middlewares.py：定义爬虫中间件

3-pipelines.py:定义数据管道，如对数据进行清洗，入库等，如下图：

定义管道后，需要在设置文件settings.py中导入，(300是执行优先级，越小优先级越高1-1000)如图：

4-settings.py，配置文件存放处，如爬虫http的user-agent请求头，cookies，是否遵循robots协议等，如图：

5-spiders目录：定义具体的爬虫，可以有多个爬虫，每个爬虫文件中定义爬虫的抓取逻辑，如图：

五、运行爬虫：项目创建完毕后，可使用shell命令运行项目

cd domain.com
scrapy crawl demo

或这在demo目录下创建一个文件并右键运行，可使用debug模式调试

# begin.py

from scrapy import cmdline

cmdline.execute('scrapy crawl scrapydemo'.split())

六、爬取结果：本项目将爬取结果转成json字符串并存入data.json文件

关注