Scrapy 安装介绍以及基本操作

转自 https://blog.csdn.net/qq_42543250/article/details/81347368

 

目前我是使用第二种方法,利用anaconda安装scrapy框架。比较简单不会出现升级 pip 提示。

1. 在日常写代码的目录下,建一个文件夹“Scrapy测试”

2.终端中输入: cd (注意cd后有一个空格),接着进入该文件夹

3. 在终端输入指令:scrapy startproject wxz ,在该文件夹中创建项目

4.创建spider文件,在终端中输入scrapy genspider taobaoSpider baidu.com,这个命令是指定要爬虫的文件名和网站的域名,命令格式为:scrapy genspider taobaoSpider + 目标网站的域名。执行效果如图所示:

在文件夹下看见的效果图:

它们的作用分别是:

items.py:定义爬虫程序的数据模型

middlewares.py:定义数据模型中的中间件

pipelines.py:管道文件,负责对爬虫返回数据的处理

settings.py:爬虫程序设置,主要是一些优先级设置,优先级越高,值越小

scrapy.cfg:内容为scrapy的基础配置

值得注意的是,在学习阶段,我们要明白几点设置文件setting中的几处配置代码,它们影响着我们的爬虫的效率:

ROBOTSTXT_OBEY = True
这行代码意思是:是否遵守爬虫协议,学习阶段我们要改为False


 
SPIDER_MIDDLEWARES = {

'wxz.middlewares.WxzSpiderMiddleware': 800,

}

这里的数值越低,速度越快。

 

5. 创建成功后,使用scrapy crawl taobaoSpider命令,即可得到目标网站的源码:

 

***进行初步采集:  https://blog.csdn.net/blue_zy/article/details/81161068?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task

 

如进行setting配置,可能出现的问题

setting文档中,MyCustomDownloaderMiddleware 未定义。(https://blog.csdn.net/myq151/article/details/83339549)

进入middlewares.py文件中,发现确实未定义该类,只定义了MoviespiderSpiderMiddleware 。

故,在setting中替换掉 MyCustomDownloaderMiddleware 即可。

 

 

 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值