python爬虫框架scrapy

一、使用pip3下载scrapy框架,安装过程中会自动下载相关依赖

pip3 install scracpy

二、下载完成后,创建软链接到/bin中

ln -s /usr/local/scrapy /bin/scrapy

三、创建项目目录 demo并使用scrapy初始化项目,进入到项目demo下。

mkdir demo
cd demo
scrapy startproject demo domain.com #初始化scrapy项目,demo项目名 domain.com 允许爬虫抓取的域名
cd domain.com
cd demo

四、scrapy项目结构分析

1-items.py 定义爬虫抓取到的数据映射实体:如下图

 

2-middlewares.py:定义爬虫中间件

 

3-pipelines.py:定义数据管道,如对数据进行清洗,入库等,如下图:

 

定义管道后,需要在设置文件settings.py中导入,(300是执行优先级,越小优先级越高1-1000)如图:

 

4-settings.py,配置文件存放处,如爬虫http的user-agent请求头,cookies,是否遵循robots协议等,如图:

 

5-spiders目录:定义具体的爬虫,可以有多个爬虫,每个爬虫文件中定义爬虫的抓取逻辑,如图:

 

五、运行爬虫:项目创建完毕后,可使用shell命令运行项目

cd domain.com
scrapy crawl demo

 或这在demo目录下创建一个文件 并右键运行,可使用debug模式调试

# begin.py

from scrapy import cmdline

cmdline.execute('scrapy crawl scrapydemo'.split())

六、爬取结果:本项目将爬取结果转成json字符串并存入data.json文件

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值