scrapy爬虫入门
采用最流行的爬虫框架scrapy,python3.6最新版本,爬取国内知名问答网站,知名技术网站,招聘网站
oldbig_lin
https://github.com/oldbig-carry
人生不是靠一蹴而就的成功,不是不断失败的成长
展开
-
scrapy初始第一波——爬取伯乐在线所有文章
1 前言 要说到爬虫界的明星,当属我们的python,而这得益于我们的爬虫明星框架--scrapy,这就让我们不得不学习它,这几天刚好用它做一些小demo,就将其总结一下,希望能对大家的学习爬虫有所帮助。 这次要爬取的是我们IT界挺有名的技术文章网站--伯乐在线的所有文章,并解析文章详情,本文适合有一定爬虫基础的同学(用过requests库,urllib库之类的) 本人的原创 2017-09-14 12:56:31 · 4558 阅读 · 0 评论 -
scrapy初始第三波——CrawlSpider爬取拉勾招聘网
一,前言 之前利用scrapy爬取伯乐在线,知乎时是用到scrapy的basic模板,即Spider,这次用CrawlSpider来爬取拉勾网的招聘信息 CrawlSpider基于Spider,但是可以说是为全站爬取而生,是目前最流行的scrapy模板二,创建工程在cmd中cd进入项目的目录,然后输入:scrapy gensipder -t crawl lagou w原创 2017-09-24 15:04:00 · 4394 阅读 · 0 评论 -
scrapy爬虫的暂停与重启
首先要有一个scrapy项目这里用我的爬取知乎用户信息的项目来做例子:https://github.com/oldbig-carry/zhihu_user在cmd上cd 进入项目然后在项目目录下创建 记录文件:remain/001然后输入:scrapy crawl zhihu -s JOBDIR=remain/001回车运行就行了原创 2017-09-29 17:32:38 · 9081 阅读 · 4 评论