大数据学习(一),hadoop的简介和发展历史

本文介绍了Hadoop作为开源分布式计算平台的基本概念、发展历史、关键特性及在大数据领域的应用。Hadoop通过分布式存储和计算解决了大规模数据处理问题,其高可靠性、高效性和高可扩展性使其在社交网站、广告系统等领域广泛应用。随着技术的发展,Hadoop不断改进,如解决单点故障和内存受限问题,并扩展了生态系统,包括MapReduce、HDFS、YARN等组件,以支持更复杂的实时数据处理需求。
摘要由CSDN通过智能技术生成

hadoop 简介

首先,他是Apache软件基金会旗下的一个开源分布式计算平台,提供了底层透明的分布式基础架构(不用关心他底层是怎么实现的,编代码操作就完事了)

其次,他的开发是基于java语言的,有很好的跨平台特性,并且可以部署在廉价的计算机集群中,我们在编程使用的时候,是不限制语言去操作的

他的核心分为两部分,分布式存储分布式计算。其中HDFS为海量的数据提供了如何去存储,MapReduce为海量的数据提供了计算
在这里插入图片描述
最后,他是一个开源的软件

hadoop 发展

他为啥起名叫hadoop,大佬也说了,就是他孩子为一头吃饱了的棕色大象取得一个名字,是一个玩具名。。。
在这里插入图片描述
一开始,他是Apache Lucene的创始人Doug Cutting开发的一个文本搜索库。但是,在开发的过程中,他遇到了一个棘手的问题,该搜索引擎框架无法扩展到拥有数十亿网页的网络,就是说当数据非常大的时候,就会出现一些问题。
在这里插入图片描述
一年之后,2003年,谷歌公司发布了关于分布式文件系统GFS方面的论文,可以解决大规模数据存储的问题。然后大佬就开始了,在2004年,Nucene项目模仿GFS开发了自己的分布式文件系统---- NDFS,就是HDFS的前身

之后,2004年,谷歌公司发布了另外一篇论文,阐述了MapReduce分布式编程思想。然后,2005年,Nutch开源实现了谷歌的MapReduce,之后把他们独立了起来,就有了Hadoop

战绩

2008年,打破世界纪录,成为最快排序1TB

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值