大数据分析,主要运用了哪些关键技术?

古代,人们用牛来拉重物,当一头牛拉不动一根圆木时,他们不曾想过培育更大更壮的牛。同样,在面对计算能力不足时,我们也应尝试着结合使用更多的计算机系统。

Hadoop就是基于这样的理念设计。Hadoop是一个由Apache基金会所开发的分布式系统基础架构,计算分析处理所涉及的框架,允许多台设备一起工作,充分利用集群的威力进行高速运算和存储,共同完成一项任务,而对于用户来说这些设备是感知不到了,Hadoop技术屏蔽了底层的细节。

大数据关键技术分析

Hadoop最底层是HDFS,也就是Hadoop文件系统,这个是分布式文件系统,由多台设备提供统一的存储空间,而用户感觉不到多台设备,只看到一个统一的存储空间,这也是云存储技术的基础。构建于HDFS的Hbase是天然的分布式数据库;MapReduce提供了云计算框架,它的数据来源也是分布式的,可以是HDFS,也可以是Hbase。

HBase是分布式数据产品,多台设备共同提供类似数据库的服务,但是这种服务是分布式,由多台设备来提供的,用户也完全感觉不到设备的存在,只知道有一个数据库给他们服务。这个也就是大数据库的基础。

在HBase之上,有MapReduce服务框架,也就是并行分析计算服务框架,可以支持各种分析应用并发的在多台设备上执行,完成一个共同的任务,原来1个人需要10天完成的任务,现在可以10个人1天完成,大大提升了数据分析的效率,这个也就是分布式计算的基础。

Pig、Hive等是数据分析的引擎,提供快速的数据分析接口和能力。

Hadoop主要有以下几个优点:

一是高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。

二是高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。

三是高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。

四是高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。

五是低成本。与一体机、商用数据仓库以及QlikView、YonghongZ-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。
  人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱,在此为你推荐几篇优质好文
1.大数据分析,主要有哪些核心技术?
http://www.duozhishidai.com/article-1938-1.html
2.构建一个企业的大数据分析平台 ,主要分为哪几步?
http://www.duozhishidai.com/article-8017-1.html
3.数据科学,数据分析和机器学习之间,有什么本质区别?
http://www.duozhishidai.com/article-7892-1.html


多智时代-人工智能大数据学习入门网站|人工智能、大数据、物联网云计算的学习交流网站

多智时代-人工智能大数据学习入门网站|人工智能、大数据、云计算、物联网的学习服务的好平台
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值