Scrapy学习篇---scrapy的使用

wangshu_liang

于 2018-12-27 14:08:35 发布

阅读量365

点赞数

分类专栏： Scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangshu_liang/article/details/85278154

版权

Scrapy 专栏收录该内容

5 篇文章

订阅专栏

1. scrapy项目实现流程

创建一个scrapy项目: scrapy startproject +<项目名字>
----示例：scrapy startproject myspider
生成一个爬虫: scrapy genspider +<爬虫名字> + <允许爬取的域名>
----示例：scrapy genspider tt tencent.com
提取数据:完善spider，使用xpath等方法
保存数据:pipeline中保存数据

2. 创建scrapy项目

下面以抓取传智师资库来学习scrapy的入门使用：http://www.itcast.cn/channel/teacher.shtml

命令：scrapy startproject +<项目名字>

示例：scrapy startproject myspider

生成的目录和文件结果如下：

3. 创建爬虫

命令：scrapy genspider +<爬虫名字> + <允许爬取的域名>

示例：scrapy genspider itcast itcast.cn

生成的目录和文件结果如下：

4. 完善spider

完善spider即通过方法进行数据的提取等操作

注意：

response.xpath方法的返回结果是一个类似list的类型，其中包含的是selector对象，操作和列表一样，但是有一些额外的方法
extract() 返回一个包含有字符串的列表
extract_first() 返回列表中的第一个字符串，列表为空没有返回None
spider中的parse方法必须有
需要抓取的url地址必须属于allowed_domains,但是start_urls中的url地址没有这个限制
启动爬虫的时候注意启动的位置，是在项目路径下启动

5. 数据传递到pipeline

为什么要使用yield？

让整个函数变成一个生成器，有什么好处呢？
遍历这个函数的返回值的时候，挨个把数据读到内存，不会造成内存的瞬间占用过高
python3中的range和python2中的xrange同理

注意：

yield能够传递的对象只能是：BaseItem,Request,dict,None

6. 完善pipeline

pipeline在settings中能够开启多个，为什么需要开启多个？

不同的pipeline可以处理不同爬虫的数据
不同的pipeline能够进行不同的数据处理的操作，比如一个进行数据清洗，一个进行数据的保存

pipeline使用注意点

使用之前需要在settings中开启
pipeline在setting中键表示位置(即pipeline在项目中的位置可以自定义)，值表示距离引擎的远近，越近数据会越先经过
有多个pipeline的时候，process_item的方法必须return item,否则后一个pipeline取到的数据为None值
pipeline中process_item的方法必须有，否则item没有办法接受和处理
process_item方法接受item和spider，其中spider表示当前传递item过来的spider

7. 输出日志LOG的设置

为了让我们自己希望输出到终端的内容能容易看一些，我们可以在setting中设置log级别

在setting中添加一行（全部大写）：LOG_LEVEL = "WARNING”

默认终端显示的是debug级别的log信息

博客等级

码龄7年

44
原创

92
点赞

213
收藏

8
粉丝

关注

私信

分类专栏

python面试题
Scrapy 5篇
flask 1篇
java 6篇
python 14篇

最新评论

linux下后台运行python程序并输出到日志文件中。
MyS0nDr1nk: NB,解决了我的问题
解决Jupyter notebook中文显示乱码问题
虚芜480: 有用有用
使用git时输错密码解决办法
weixin_49239226: 可是我的就没有git的凭证啊
Git出现 fatal: Authentication failed for 'http://xxx.xxx.xx:xxx.git/'解决方法
可爱的小天空: 大大的赞，我试了一下可以的，要是下载一个项目不行，可以重新找开git命令窗口，另下载一个项目，就会弹出输入账号和密码了
java的https请求忽略证书
hyb19970427: https://blog.csdn.net/wangshu_liang/article/details/103028031?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522164638206416780264068733%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&request_id=164638206416780264068733&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~blog~first_rank_ecpm_v1~rank_v31_ecpm-4-103028031.nonecase&utm_term=+TrustStrategy+acceptingTrustStrategy+%3D+%28x509Certificates%2C+s%29+-%3E+true%3B&spm=1018.2226.3001.4450

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。