爬虫研究现状(可自行加删)

知识内容自互联网

2000年诞生网页API和API爬虫2002年10月份,Lycos搜索引擎的访问量高达3700万,成为全世界访问量排名第5的网站。2005-2006年网络抓取软件的可视化。在2018年,众所周知的万维网,或通俗的“互联网”,由超过18亿个网站组成。只需点击几下鼠标,就可以获得如此巨大的数据量。随着越来越多的人上网,每秒产生的数据也越来越多。搜索引擎之间开始出现了分工协作,并有了专业的搜索引擎技术和搜索数据库服务提供商。国外的Inktomi,它本身并不是直接面向用户的搜索引擎,但向包括Overture、LookSmart、MSN、HotBot等在内的其他搜索引擎提供全文网页搜索服务。爬虫技术历经20多年的发展,目前技术已日趋多样。为满足不同用户多种多样的需求,创建开发了类型众多的爬虫系统

在国内近五年来说,大多数爬虫是用后台脚本类语言写的,其中python是用的最多最广的,并且页诞生了很多优秀的库和框架,如scrapy、BeautifulSoup 、pyquery、Mechanize等。但是一般来说,搜索引擎的爬虫对爬虫的效率要求更高,会选用c++、java,详情排名前50的开源Web爬虫用于数据挖掘。对于简单爬虫,瓶颈在于数据分析及提取,而网络效率和语言关系并不大。在近几年nodejs发展非常快, 使得javascript遍地开花,有些人也开始尝试用node做爬虫,这其实和其它后台脚本语言没什么区别,也不如python、php开发效率高、爬虫方面类库多,各方面资源也不如前两者丰富。依旧不能在node里发起ajax请求,不能执行原网页的dom,因为node的javascript执行环境和浏览器的执行环境并不相同,就像如同jvm上的java和谷歌上的java一样。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值