关于大数据框架hadoop

最新推荐文章于 2024-04-22 23:49:20 发布

wangxu_xuxu

最新推荐文章于 2024-04-22 23:49:20 发布

阅读量1k

点赞数

分类专栏： java 大数据 hadoop 文章标签：大数据 big data hadoop mapreduce hdfs

本文链接：https://blog.csdn.net/wangxu_xuxu/article/details/44033705

版权

java 同时被 3 个专栏收录

8 篇文章 0 订阅

订阅专栏

大数据

1 篇文章 0 订阅

订阅专栏

hadoop

1 篇文章 0 订阅

订阅专栏

巨量资料(big data)，或称大数据、海量资料，指的是所涉及的资料量规模巨大到无法透过目前主流软件工具，在合理时间内达到撷取、管

理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据的4V特点：Volume、Velocity、Variety、Veracity。“大数据”是由

数量巨大、结构复杂、类型众多数据构成的数据集合。

大数据的处理过程被称为“垃圾里找黄金”

Hadoop 大数据的终极解决方案，是一个能够对大量数据进行分布式处理的软件框架。它的设计目的就是让不了解分布式细节的人也能很轻松

的使用分布式技术。
Hadoop的框架最核心的设计就是HDFS和MapReduce。HDFS为海量的数据提供了分布式高可靠性的存储，而MapReduce为海量的数据提供了高速

并行计算。HDFS一句话总结就是：把一个大文件切分成若干小块放在集群的多个主机上，并用智能备份机制保障高可靠性。MapReduce一句话

总结就是：把要处理的巨量任务（job）分割成若干个任务片（task），让集群中不同的主机执行不同的任务片，各个任务片互补影响并行执

行。
Hadoop是为大数据而生的并不是万用灵丹，他的性能取决于文件的大小和数量，处理的复杂度以及群集机器的数量，相连的带宽，当以上四

者并不大时，hadoop优势并不明显。
比如，不用hadoop用java写的简单grep函数处理100M的log文件只要4秒，用了hadoop local的方式运行是13秒，用了hadoop单机集群的

方式是31秒，用双机集群10M网口的话更慢，慢到不好意思说出来的地步。

wangxu_xuxu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
关于大数据框架hadoop

巨量资料(big data)，或称大数据、海量资料，指的是所涉及的资料量规模巨大到无法透过目前主流软件工具，在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据的4V特点：Volume、Velocity、Variety、Veracity。“大数据”是由数量巨大、结构复杂、类型众多数据构成的数据集合。大数据的处理过程被称为“垃圾里找黄金”
复制链接

扫一扫