![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
Yustin-z
这个作者很懒,什么都没留下…
展开
-
Scrapy-Redis分布式爬虫学习
Scrapy-Redis分布式爬虫组件 scrapy是一个框架,它本身不支持分布式的。如果我们想要做分布式的爬虫,就需要借助一个组件叫做Scrapy - Redis,这个组件正是利用了Redis可以分布式的功能,集成到Scrapy框架中,使得爬虫进行分布式。可以充分的利用资源(多个ip、更多带宽、同步爬取)来提高爬虫的爬行效率。 分布式爬虫的优点: 可以充分利用多台机器的带宽。 可以充分利用...原创 2020-04-16 10:23:23 · 200 阅读 · 0 评论 -
Scrapy框架知识
Scrapy框架架构: Scrapy框架介绍: 写一个爬虫,需要做很多的事情。比如:发送网络请求、数据解析、数据存储、反反爬虫机制(更换IP代理、设置请求头等)、异步请求等。这些工作如果每次都要从零开始写,比较浪费时间。因此scrapy把一些基础的东西封装好了,在他上边写爬虫可以变得更加高效(爬取效率和开发效率)。 Scrapy框架模块功能介绍: 1.Scrapy Engine(引擎):sc...原创 2020-04-09 16:28:07 · 14305 阅读 · 0 评论 -
urllib库知识
urllib库: urllib库是Python中一个最基本的网络请求库,可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据 urlopen函数: 在Python3的urllib库中,所有和网络请求相关的方法,都被集中到urllib.request模块下,先看下urllib函数基本的使用:from urllib import request resp = request...原创 2020-04-03 16:53:50 · 129 阅读 · 0 评论