Hadoop
Hadoop相关
嚯阔落
这个作者很懒,什么都没留下…
展开
-
大数据—Hadoop—Hadoop调优
Hadoop调优HDFS问题:HDFS小文件弊端:HDFS上每个文件都要在namenode上建立一个索引,这个索引的大小约为150byte,这样当小文件比较多的时候,就会产生很多的索引文件,一方面会大量占用namenode的内存空间,另一方面就是索引文件过大是的索引速度变慢。优化方案:1)Hadoop Archive:是一个高效地将小文件放入HDFS块中的文件存档工具,它能够将多个小文...原创 2020-02-25 04:00:01 · 203 阅读 · 0 评论 -
大数据—Hadoop—Yarn
概念Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。名词解释资源:在 YARN 的环境下,资源特指计算资源,包括 CPU 和内存。计算机的...原创 2020-02-25 03:04:47 · 194 阅读 · 0 评论 -
大数据—Hadoop—MapReduce
概念Mapreduce是一个分布式运算程序的编程框架,用于编写批处理应用程序。是用户开发“基于hadoop的数据分析应用”的核心框架。Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上。MapReduce 作业通过将输入的数据集拆分为独立的块,这些块由 map 以并行的方式处理,框架对 map 的输出进行排序,然后...原创 2020-02-24 19:00:52 · 317 阅读 · 0 评论 -
大数据—Hadoop—HDFS
概念HDFS,全称:Hadoop Distributed File System,分布式文件存储系统,用于存储文件。通过目录树来定位文件;而且,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS的文件在物理上是分块(block)存储的,在Hadoop2.X及以上的版本中,默认块的大小为128M(一次任务的最后一个块可以小于等于blocksize的1.1倍),块的...原创 2020-02-23 05:33:21 · 541 阅读 · 0 评论