关于大数据框架hadoop

1 篇文章 0 订阅
1 篇文章 0 订阅
巨量资料(big data),或称大数据、海量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管

理、处理、并整理成为帮助企业经营决策更积极目的的资讯。 大数据的4V特点:Volume、Velocity、Variety、Veracity。“大数据”是由

数量巨大、结构复杂、类型众多数据构成的数据集合。

大数据的处理过程被称为“垃圾里找黄金”


Hadoop 大数据的终极解决方案,是一个能够对大量数据进行分布式处理的软件框架。它的设计目的就是让不了解分布式细节的人也能很轻松

的使用分布式技术。
Hadoop的框架最核心的设计就是HDFS和MapReduce。HDFS为海量的数据提供了分布式高可靠性的存储,而MapReduce为海量的数据提供了高速

并行计算。HDFS一句话总结就是:把一个大文件切分成若干小块放在集群的多个主机上,并用智能备份机制保障高可靠性。MapReduce一句话

总结就是:把要处理的巨量任务(job)分割成若干个任务片(task),让集群中不同的主机执行不同的任务片,各个任务片互补影响并行执

行。
Hadoop是为大数据而生的并不是万用灵丹,他的性能取决于文件的大小和数量,处理的复杂度以及群集机器的数量,相连的带宽,当以上四

者并不大时,hadoop优势并不明显。
    比如,不用hadoop用java写的简单grep函数处理100M的log文件只要4秒,用了hadoop local的方式运行是13秒,用了hadoop单机集群的

方式是31秒,用双机集群10M网口的话更慢,慢到不好意思说出来的地步。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值