Hadoop
热干面的日常学习
我觉得靓仔这个词听着很舒服,虽然我不是广东的
展开
-
Hadoop系列——Yarn上作业的提交流程
提交流程作业提交Client调用job.waitForCompletion方法,向整个集群提交MapReduce作业。Client向ResourceManager申请一个作业id。RM给Client返回资源提交的路径和作业id。Client将jar包,切片信息,xml配置文件提交到指定路径。Client提交完成后向MR申请运行mrApplicationMaster。作业初始化RM收到Client的请求以后,将job转换成一个Task,提交到任务队列中。某一个空闲的NodeM.原创 2020-11-20 10:31:12 · 433 阅读 · 0 评论 -
Hadoop系列——MapRdecude工作流程;MapTask,Shuffle,ReduceTask过程详解
一、MapTask过程MapTask阶段主要是分为read-Map-Collect-Spill四个过程Read阶段:MapTask通过用户编写的RecordReader,从输入InputSplit中解析出一个个Key/Value对。Map阶段:将解析出来的Key-value交给map()方法进行处理,产生新的Key-Value对。Collect阶段:map()处理完数据以后会调用OutputCollector.collect()输出结果。该函数,将这些键值对进行分区,然后写入环形缓冲区。Spi原创 2020-11-03 09:57:07 · 371 阅读 · 0 评论 -
Hadoop系列——HDFS相关架构,面试题,读数据/写数据/SecondaryNameNode的工作机制
一、HDFS文件块的大小HDFS中的文件在物理上是分块存储(Block),块的大小可以通过参数配置,默认是128M。HDFS文件块设置的太小会增加寻址时间;设置的太大会导致磁盘传输数据的时间远远大于定位块开始位置的时间;HDFS块大小的设置主要取决于磁盘的传输速率。二、HDFS写数据流程客户端通过DFS向NamNode请求上传文件,NameNode检查文件是否存在,文件的父目录是否存在。NameNode返回Cli可以上传。Cli请求上传第一个数据块。NameNode返回3个DataNode节原创 2020-11-01 15:58:47 · 162 阅读 · 0 评论 -
Hadoop系列——Hadoop简介
一、什么是HadoopHadoop是一个对大量数据进行分布式处理的软件框架。以一种高效、可靠、可伸缩的方式进行数据处理。主要包括三个部份:Hdfs,MapReduce,Yarn。广义上,Hadoop是指一个生态圈,包含如HBase,Hive,Zookeeper,Spark,Kafka,Flume等软件二、什么是HdfsHDFS全称:Hadop Distribute FileSystem以流式数据访问模式来存储超大文件,运行在硬件集群上的文件系统。HDFS的三种节点:NameNode,Seconda原创 2020-11-01 14:59:24 · 688 阅读 · 0 评论