python爬虫
Vosky
生命不息,折腾不止
展开
-
【图文详解】scrapy爬虫与动态页面——爬取拉勾网职位信息(1)
现在很多网站都是动态异步加载的,就是说,网页打开了,先给你看上面一部分东西,然后剩下的东西再慢慢加载。 所以你可以看到很多网页,都是慢慢的刷出来的,或者有些网站随着你的移动,很多信息才慢慢加载出来。这样的网页有个好处,就是网页加载速度特别快(因为不用一次加载全部内容)。但是这对我们写爬虫就不方便了,因为你总是爬不到你想要的东西!我们举个例子,我因为最近想分析拉勾网有关职位情况的数据,所以我上原创 2016-04-29 22:17:29 · 17823 阅读 · 12 评论 -
【图文详解】scrapy爬虫与动态页面——爬取拉勾网职位信息(2)
上次挖了一个坑,今天终于填上了,还记得之前我们做的拉勾爬虫吗?那时我们实现了一页的爬取,今天让我们再接再厉,实现多页爬取,顺便实现职位和公司的关键词搜索功能。之前的内容就不再介绍了,不熟悉的请一定要去看之前的文章,代码是在之前的基础上修改的【图文详解】scrapy爬虫与动态页面——爬取拉勾网职位信息(1)开始还是回到我们熟悉的页面,这里,我们熟练的打开了Newwork标签,我们点下一页,看会出来什原创 2016-05-14 11:47:34 · 5155 阅读 · 1 评论 -
【图文详解】python爬虫实战——5分钟做个图片自动下载器
python爬虫实战——图片自动下载器之前介绍了那么多基本知识【Python爬虫】入门知识,大家也估计手痒了。想要实际做个小东西来看看,毕竟: talk is cheap show me the code!制作爬虫的基本步骤顺便通过这个小例子,可以掌握一些有关制作爬虫的基本的步骤。一般来说,制作一个爬虫需要分以下几个步骤:1. 分析需求(对,需求分析非常重要,不要告诉我你老师没教你) 2.原创 2016-04-19 11:18:12 · 18018 阅读 · 10 评论 -
【图文详解】scrapy安装与真的快速上手——爬取豆瓣9分榜单
哪有那么复杂!scrapy安装与快速上手——爬取豆瓣9分榜单写在开头现在scrapy的安装教程都明显过时了,随便一搜都是要你安装一大堆的依赖,什么装python(如果别人连python都没装,为什么要学scrapy….)wisted, zope interface,pywin32………现在scrapy的安装真的很简单的好不好!代码我放github上了,可以参考: https://github.co原创 2016-04-23 17:40:46 · 6503 阅读 · 6 评论 -
【Python爬虫】入门知识
爬虫基本知识这阵子需要用爬虫做点事情,于是系统的学习了一下python爬虫,觉得还挺有意思的,比我想象中的能干更多的事情,这里记录下学习的经历。网上有关爬虫的资料特别多,写的都挺复杂的,我这里不打算讲什么大道理,因为其实爬虫挺好理解的。就是下面一个流程:Created with Raphaël 2.1.0网页网页源代码正则表达式需要的内容爬虫的功能就是把网页源代码想办法爬下来,然后分析出需要的内容。原创 2016-04-14 20:58:58 · 4436 阅读 · 3 评论