爬虫工具之就业调查

由于我准备网上爬一点信息,所以想找一些爬虫工具。为了搞清楚现在什么爬虫工具最流行,我自己去51job做了调查。调查的方法很简单,就是去51job搜索爬虫两个字,看岗位需求。我选取了北上广深杭5个主要互联网城市,工资水平设置在1.5万以上(工资低的大家应该没兴趣了)。调查时间为2017年3月26日9点左右。搜索爬虫两个字,出来了345个结果。

 

 

虽然结果很多,但是只有大概前面100多个是爬虫工程师,后面的连项目经理都出来了。我就只统计了前面的100个。统计结果如下:

 

 

从统计结果看,Nutch(33次),Scrapy(23次),Heritrix(20次)是岗位介绍里出现次数最多的三个爬虫工具。

 

下面,我将分别调查一下这三个工具。

 

 

 

Nutch

官网:http://nutch.apache.org/

wikipedia页面:https://en.wikipedia.org/wiki/Apache_Nutch

 

Apache nutch是高可扩展的开源网页爬虫项目。Nutch是用java开发的,但是数据文件为公用格式。

 

Scrapy

 

官网:https://scrapy.org/

wikipedia页面:https://en.wikipedia.org/wiki/Scrapy

 

Scrapy是免费开源的网络爬虫框架。编写语言为python。拥有者为Scrapinghub Ltd。

 

Heritrix

 

官网:https://webarchive.jira.com/wiki/display/Heritrix

wikipedia页面:https://en.wikipedia.org/wiki/Heritrix

 

Heritrix是Internet Archive的开源爬虫。编写语言为java。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

织网者Eric

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值