scrapy的基本构架以及简单的用法

最新推荐文章于 2024-05-09 16:10:51 发布

LH_python

最新推荐文章于 2024-05-09 16:10:51 发布

阅读量434

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/LH_python/article/details/79416668

版权

2018.3.1

爬虫的框架总共有3中常用的分别是: Scrapy,PySpider,Selenium

而Selenium 是一款自动测试的框架。

常用的是scrapy，scrapy 是python一种爬虫框架，采用的是多线程爬虫的方式，是普通爬虫的方法的5到6倍的速度

安装 scrapy 例如：

首先第一步：先想好吧爬虫程序放在那里，我们放在桌面以方便管理

第二步：通过cmd命令来创建一个爬虫程序

这样通过cmd命令行所做的事情就完成了桌面上就会出现创建好的项目模板。

然后把这个文件放到pycharm中打开

这样就打开了一个最基本的爬虫模板。

然后通过pycharm的cmd命令来创建爬虫文件

scrapy genspider ivsky ivsky.com

之后打开文件会在spiders文件目录下出现一个 ivsky.py的文件

下面开始配置settings 文件

1.robots_obey协议，scrapy自动遵循robots协议，所以好多网站都不能爬取，一个改为False

2.修改download_delay配置，scrapy默认中间间隔时间为0，防止被反爬虫发现，所以改为0.5以上。

3.cookie_enable也设置为False,来禁用cookie追踪。

4.自定义UserAgentMiddleWare以此来实现修改爬虫的ueser-agent.这个步骤可以粘贴现成的也可以通过自己研究源码来实现。

5.在setting中配置一下

从源码中粘贴过来修改之后的代码，可以实现z

6.开始解析数据

1）首先大致规划一下需要几个函数还进行解析，以便达到清晰明白的看到过程

scrapy 默认只启动parse 函数。所以用yield 关键字来进行函数之间的调用。

yield的用法类似于return，确有区别与return，return不执行之后的代码，而yield还会执行之后的代码

如果想要把文件下载下来，scrapy 默认支持4种数据格式，分别是：.json,.csv等等

修改 item.py文件已达到数据的处理。

把要下载的数据放到item进行处理例如

操作是把 debug文件修改一下

这是关于进程和线程的一些知识

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。