大兔包子叨叨叨--大数据之Hadoop篇(一)--大数据是啥?

        最近小兔包子公司要上一套大数据集群环境,所以找了位相关牛人来给他们简单讲讲大数据方面的概念,结果听了半天回来后问我的第一句话就是。

        小兔包子:大数据到底是个啥啊?

        大兔包子:大数据啊,就是数据大啊。

        说完这句话后我用特别真诚的眼神看着她,然后发现她用看白痴一样的眼神看着我~~~

        大兔包子:我没骗你啊~~~ 你们公司不是找人说了么。

        小兔包子:是说了啊但没听懂啊,又什么Hadoop啊,Spark啊,Hive啊,NoSQL啊什么的一大堆,最后也没说大数据到底是个什么玩意。大数据到底是啥啊?

        大兔包子:你猜。

        小兔包子:你找咬啊?

        其实大数据不说在国际上,仅在国内而言已经有些年头了,我印象中从10年左右开始就出现了这个概念,之后13年被称为国内大数据元年,到现在平时无论是在网络上还是各大媒体新闻上也都是铺天盖地的大数据消息,那对于我们这帮普通老百姓而言,大数据到底是什么,对我们有什么用,这可能也是很多人好奇的地方。

        对于非数据行业的人而言,仅需知道大数据就是大量的数据,而有了这大量的数据,我们可以从中分析出很多有用的信息来从各个方面帮助我们提升生活质量,提高做事效率就可以了,这其实也正是大数据现在在做的事情。就像我不是学习医药方面的人,我仅需要知道感冒了要吃某种感冒药就够了,至于要不要去了解多种药的区别,药物原理一类的就看我对医药方面的兴趣有多大了。

        小兔包子:那我还想要了解更多呢,比如说你说的这个和我们公司今天说的Hadoop啊什么的都有什么关系啊?

        大兔包子:那你就帮我拿杯水,准备听我开始叨叨叨吧~~~

 

        首先我们要了解一点就是现在我们提到的近两年比较火的,大数据也好,数据分析啊,机器学习啊,AI啊其实都不是近年才有的概念,甚至像机器学习,AI都可以往前推到计算机早期那个年代。而至于为什么直到近几年这些概念才好像一夜间火了起来,其实这其中相当一部分原因就是数据量的巨增,另外还有计算机算力成本的降低。让我们从头说起,自21世纪以来,网络上所产生的数据以指数形式疯狂增长,无论在数据总量,种类,还是生成速度上,都已经渐渐超越了传统数据存储和数据处理平台的极限,这时就迫切需求新的数据存储和数据处理环境,在当时也确实出现了多款新的数据处理环境,而我们现在比较常见的Hadoop就是其中的佼佼者,他其中包括了数据存储部分HDFS,和数据处理部分MapReduce。而经过一段时间的优胜劣汰,至今Hadoop已经成为广为人知且市场占有量极大的大数据处理平台,而在数据存储和数据处理之外,Hadoop同样包含多种其他组件,这些组件共同构成了Haodop的生态圈环境。而当我们终于能将这些海量数据进行存储并有不错的处理速度后,我们就像巧妇难为无米之炊的巧妇忽然发现家里多了无数种食材,而且还有钱能架起各种炊具了,那我们就终于可以施展我们这一身厨艺做出各种各样以前只能想象的美食了。说到这里我想大家已经能猜想到,我们存在已久但一直无处施展的“厨艺”就是上面提到的机器学习和AI等技术,而做出的“美食”就是我们现在日常都会遇到的各种喜好推荐系统,图像识别系统和智能语音系统等等等等。

        小兔包子:哦,那这么说来大数据还真是数据大啊~~~

        大兔包子:我还骗你不成,但实际上对大数据的界定也是有一定特征属性的,如果数据具有总量巨大,种类繁多,生成速度快,价值比例低这个特性的话,我们往往就认为这种数据即是大数据,需要用新的大数据生态环境来进行处理了。

        小兔包子:那Spark呢,我听说是能取代Hadoop的。

        大兔包子:取代并不准确,其实就像中国一开始出现大数据的概念时,无数人吵着说传统的数据行业要被取代了一样,被蚕食一部分市场份额是肯定的,但说完全取代就太夸张了,就像斧子和电锯,我是没你快,但我比你稳啊,偏向不同而已。Spark与Hadoop也是类似的,而且其实Spark是数据处理框架,所以应该对比的是Hadoop的MapReduce部分,Hadoop设计之初MapReduce框架预设的处理对象是离线的为主,所以处理过程与磁盘交互更多些,而Spark在数据处理上由于是内存级操作,所以速度确实有相当大的提升,但同样也需要更多的硬件资源,所以应该是这两个平台可以对应不同的数据处理需求而已,而完全取代对方,目前还是做不到的。

        至此大数据是啥应该差不多了,而具体的Hadoop生态圈,Spark生态圈等技术内容,容大兔包子后续继续叨叨叨。。。未完待续

 

 

版权说明:本文为博主myfelix1925原创,转载请注明出处。http://blog.csdn.net/myfelix1925/article/details/79579691

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值