![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 97
程序猿架构
这个作者很懒,什么都没留下…
展开
-
Go语言进阶之路:并发爬虫,爬取空姐网所有相册图片
上次聊到了《Go语言正则表达式》和《Go语言手撸一个LRU缓存》,这次利用正则表达式来编写一个并发爬虫。说到爬虫,不得不提到前面写的《Python网络爬虫requests、bs4爬取空姐网图片》。这个爬虫很简洁,使用requests库发送http请求,使用bs4来解析html元素,获取所有图片地址。但是这个爬虫是单线程爬虫,速度太慢,一分钟只能爬下来300多张图片。所以,编写了Go语言的...原创 2020-05-02 23:28:51 · 1044 阅读 · 0 评论 -
爬虫进阶:CrawlSpider爬取169ee全站美女图片
CrawlSpider前面,我们用了scrapy中的CrawlSpider爬取了糗事百科中大量段子数据。但是,qiubai这个爬虫没有充分利用CrawlSpider的优点。其实,在qiubai这个爬虫里面我们只是把CrawlSpider当做普通的Spider用而已。CrawlSpider继承自Spider,提供了Rule和LinkExtractor,使得爬虫框架能够自动按照规则提取Response中原创 2020-01-29 12:05:25 · 27027 阅读 · 2 评论 -
Python网络爬虫requests、bs4爬取空姐网图片
如之前的几篇文章(Python爬虫框架之Scrapy详解、Python爬虫框架Scrapy之爬取糗事百科大量段子数据),使用了Scrapy框架并且爬取了糗事百科的段子存入MongoDB中。Scrapy框架很好,也提供了很多扩展点,可以自己编写中间件处理Scrapy的Request和Response。但是可定制化或者可掌控性来说,还是自己写的爬虫更加强一些。如果写简单更加可控的爬虫,还是建议使用Pyt原创 2017-05-26 21:08:46 · 8205 阅读 · 0 评论 -
Python爬虫框架Scrapy之爬取糗事百科大量段子数据
如上篇文章《Python爬虫框架之Scrapy详解》(传送门:Python爬虫框架之Scrapy详解)所述。首先,准备scrapy环境:安装Python,pip,使用pip安装lxml和scrapy。scrapy startproject qiubai新建一个名为qiubai的scrapy爬虫项目。新建qiubai爬虫项目使用PyCharm打开,项目结构如图:定义QiubaiItem:新建项目原创 2017-05-24 13:27:39 · 6089 阅读 · 0 评论 -
Python爬虫框架之Scrapy详解
scrapy爬虫安装:首先,安装Python,pip,然后使用pip安装lxml和scrapy,这样就可以新建scrapy项目了。然后,在命令行使用scrapy startproject xxx命令新建一个名为xxx的scrapy爬虫项目。scrapy爬虫内部处理流程:我们在使用scrapy写爬虫,一般要继承scrapy.spiders.Spider类,在这个类中,有个数组类型的变量start原创 2017-05-20 23:25:27 · 11126 阅读 · 2 评论