Python
文章平均质量分 96
程序猿架构
这个作者很懒,什么都没留下…
展开
-
Python爬虫框架Scrapy之爬取糗事百科大量段子数据
如上篇文章《Python爬虫框架之Scrapy详解》(传送门:Python爬虫框架之Scrapy详解)所述。首先,准备scrapy环境:安装Python,pip,使用pip安装lxml和scrapy。scrapy startproject qiubai新建一个名为qiubai的scrapy爬虫项目。新建qiubai爬虫项目使用PyCharm打开,项目结构如图:定义QiubaiItem:新建项目原创 2017-05-24 13:27:39 · 6145 阅读 · 0 评论 -
Python网络爬虫requests、bs4爬取空姐网图片
如之前的几篇文章(Python爬虫框架之Scrapy详解、Python爬虫框架Scrapy之爬取糗事百科大量段子数据),使用了Scrapy框架并且爬取了糗事百科的段子存入MongoDB中。Scrapy框架很好,也提供了很多扩展点,可以自己编写中间件处理Scrapy的Request和Response。但是可定制化或者可掌控性来说,还是自己写的爬虫更加强一些。如果写简单更加可控的爬虫,还是建议使用Pyt原创 2017-05-26 21:08:46 · 8227 阅读 · 0 评论 -
爬虫进阶:CrawlSpider爬取169ee全站美女图片
CrawlSpider前面,我们用了scrapy中的CrawlSpider爬取了糗事百科中大量段子数据。但是,qiubai这个爬虫没有充分利用CrawlSpider的优点。其实,在qiubai这个爬虫里面我们只是把CrawlSpider当做普通的Spider用而已。CrawlSpider继承自Spider,提供了Rule和LinkExtractor,使得爬虫框架能够自动按照规则提取Response中原创 2020-01-29 12:05:25 · 27462 阅读 · 2 评论 -
有哪些必学的Python标准库和第三方库
Python正在成为时下最好最热门的数据挖掘、数据分析的编程语言。Python的的标准库又是Python学习中的重中之重。来看一下有哪些一定要学的Python标准库,有哪些建议学的Python第三方库(第三方框架)。这些标准库和第三方库一定会成为你学习Python路上的得力助手!必学标准库什么是标准库?就是Python语言自带的一些函数库。装好Python环境就能直接用的库。itert...原创 2020-02-26 21:26:53 · 1597 阅读 · 0 评论 -
Python爬虫框架之Scrapy详解
scrapy爬虫安装:首先,安装Python,pip,然后使用pip安装lxml和scrapy,这样就可以新建scrapy项目了。然后,在命令行使用scrapy startproject xxx命令新建一个名为xxx的scrapy爬虫项目。scrapy爬虫内部处理流程:我们在使用scrapy写爬虫,一般要继承scrapy.spiders.Spider类,在这个类中,有个数组类型的变量start原创 2017-05-20 23:25:27 · 11155 阅读 · 2 评论