Hadoop
文章平均质量分 88
jlulxg
这个作者很懒,什么都没留下…
展开
-
Hadoop 架构HDFS, Yarn & MapReduce
什么是Hadoop体系结构?Hadoop具有主从拓扑。 在这种拓扑中,我们有一个主节点和多个从节点。 主节点的功能是将任务分配给各个从节点并管理资源。 从节点进行实际计算。 从节点存储实际数据,而在主节点上,其存储元数据信息。Hadoop体系结构包括三个主要层:HDFS (Hadoop Distributed File System) Yarn MapReduce1、HDFSHDFS代表Hadoop分布式文件系统。 它提供了Hadoop的数据存储。 HDFS将数据单元分为称为块的较小单翻译 2021-02-16 16:20:18 · 350 阅读 · 0 评论 -
MapReduce过程详解及其性能优化
废话不说直接来一张图如下: 从JVM的角度看Map和Reduce Map阶段包括: 第一读数据:从HDFS读取数据 1、问题:读取数据产生多少个Mapper?? Mapper数据过大的话,会产生大量的小文件,由于Mapper是基于虚拟机的,过多的Mapper创建和初始化及关闭虚拟机都会消耗大量的硬件资源; &nb...转载 2020-09-21 10:01:40 · 428 阅读 · 0 评论 -
Hadoop Streaming自带参数解析
排序、hash分组、压缩格式、内存设定-Option:-input:输入文件路径 -output:输出文件路径 -mapper:用户自己写的mapper程序,可以是可执行文件或者脚本 -reducer:用户自己写的reducer程序,可以是可执行文件或者脚本 -file:打包文件到提交的作业中,可以是mapper或者reducer要用的输入文件,如配置文件,字典等,将客户端本地文件打...转载 2019-03-13 14:51:16 · 1477 阅读 · 0 评论