hadoop分布式计算系统
1、主要用于对大于1TB的海量数据的处理
2、hadoop采用java语言开发,是对google的map reduce核心技术的开源实现
3、hadoop的核心模块包括系统hdfs和分布式计算框架mapreduce,这一结构实现了计算和存储的高度耦合,十分有利于面向数据的系统架构,因此已成为大数据技术领域的事实标准
4、文件系统是hadoop系统的重要组成部分,也是hadoop实现自动并行框架的基础,hadoop的文件系统为HDFS
5、hdfs原型为gfs
6、gfs为分布式系统,它是一个高度容错网络文件系统,主要由一个master和众多chunkserver构成的
7、master保存着三类元数据:文件名和块的名字空间、从文件到块的映射、副本位置
8、主从式是云计算系统的一种方式
9、MapReduce是一种处理大数据集的编程模式
10、MapReduce框架能实现基于数据切分的自动并行计算
11、MapReduce特点:需要在集群条件下运行、可以在商品化集群条件下运行,不需要特别的硬件支持、适合对大数据进行处理、计算向存储迁移、计算效率会受最慢的map任务影响。
2020-12-23
最新推荐文章于 2022-10-27 15:45:52 发布