初识Hadoop

最新推荐文章于 2024-10-05 11:27:00 发布

a1004117090

最新推荐文章于 2024-10-05 11:27:00 发布

阅读量201

点赞数

文章标签：大数据数据库嵌入式

原文链接：http://www.cnblogs.com/sunbr/p/11562584.html

版权

大数据特点

4V：volume variety velocity value

海量性（volume）：大数据的数据量很大，每天我们的行为都会产生大批量数据

多样性（variety）：大数据的类型多种多样，比如视频、音频和图片都属于数据

高速性（velocity）：大数据要求处理速度快，比如淘宝双十一需要实时显示交易数据

价值性（value）：大数据产生的价值密度低，意思是说大部分数据没有参考意义，少部分数据会形成高价值

Apache开源软件基金会开发了运行在大规模普通服务器上，用于大数据存储、计算、分析的分布式存储系统和分布式计算框架--Hadoop。其两大核心如下：

HDFS（Hadoop Distributed File System，分布式文件系统）：是Hadoop中的核心组件之一，除了可以保存海量数据，还具有高可靠性、高扩展性和高吞吐率的特点。
MapReduce：属于分布式计算框架，一般用于对海量数据的计算，它的特点是易于编程、高容错和高扩展性等优点。另外，MapReduce可以独立于HDFS使用。

　　总结来说，hadoop中的核心HDFS为海量数据提供了存储，而MapReduce则为海量数据提供了计算服务。