大数据
1、概念
大数据:指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 大数据主要解决海量数据的采集、存储和分析计算的问题。
2、特点
大量、高速、多样、低价值密度(快速对有价值数据进行提纯)
hadoop
1、概念
hadoop是分布式系统基础架构,主要解决海量数据的存储和海量数据的分析计算问题。
优势:高可靠性(其中一个节点出现故障,也不会导致数据的丢失)、高扩展性(动态增加或删除节点)、高效性(并行工作)、高容错性(能够将失败的任务重新分配)
组成:MapReduce(计算)、yarn(资源调度)、HDFS(数据存储)、Common(辅助工具)
HDFS架构
1)、NameNode(nn):主要保存文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、 文件权限),以及每个文件的块列表和块所在的DataNode等。
概述:NameNode管理文件系统的命名空间,它维护着文件系统树以及该树所有的文件和目录。这些信息以两