hadoop
趣学程序-shaofeer
爱生活,爱程序。趣学程序!我在这里分享我的学习记录以及学习笔记!
展开
-
MapRedue详细工作流程
MapRedue详细工作流程简述原创 2019-05-23 11:50:45 · 459 阅读 · 0 评论 -
Hadoop之WritableComprale 排序
Hadoop之WritableComprale 排序排序是 MapReduce 框架中最重要的操作之一。Map Task 和 Reduce Task 均会对数据(按照 key)进行排序。该操作属于 Hadoop 的默认行为。任何应用程序中的数据均会被排序,而不管逻辑上是否需要。默认排序是按照字典顺序排序,且实现该排序的方法是快速排序。对于 Map Task,它会将处理的结果暂时放到一个缓冲...原创 2019-05-21 15:36:50 · 200 阅读 · 0 评论 -
Hadoop值Partition分区
分区操作为什么要分区?要求将统计结果按照条件输出到不同文件中(分区)。比如:将统计结果按照手机归属地不同省份输出到不同文件中(分区)默认 partition 分区/** 源码中:numReduceTasks如果等于1 不会走getPartition方法 numReduceTasks:默认是1*/public class HashPartitioner<K, V> ...原创 2019-05-21 15:17:27 · 1515 阅读 · 0 评论 -
Hadoop优化
大量小文件的优化策略在Input时,将小文件组合成大文件如果已存在HDFS中,可以用CombineTextInputFormat进行切片,他可以将多个小文件从逻辑上规划到一个切片上,这样就可以将多个小文件放到一个MapTask中处理1)默认情况下 TextInputformat 对任务的切片机制是按文件规划切片,不管文件多小,都会是一个单独的切片,都会交给一个 maptask,这样如...原创 2019-05-21 15:03:39 · 351 阅读 · 0 评论 -
MapReduce之提交job源码分析 FileInputFormat源码解析
MapReduce之提交job源码分析job 提交流程源码详解//runner 类中提交jobwaitForCompletion()submit();// 1 建立连接connect(); // 1)创建提交 job 的代理 new Cluster(getConfiguration()); // (1)判断是本地 yarn 还是远程 initialize(jobTrackAd...原创 2019-05-21 14:28:39 · 441 阅读 · 0 评论 -
MapReduce之WordCount
用户统计文件中的单词出现的个数WordCountMapper.javapackage top.wintp.mapreduce.wordcount;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;impo...原创 2019-05-21 13:32:54 · 281 阅读 · 0 评论 -
NameNode故障处理方法
NameNode故障处理方法简述NameNode故障后,可以通过下列两种方式进行恢复数据:方法一(手动):将SecondaryNameNode文件下的数据复制到NameNode中方法二(程序):使用-importCheckpoint选项启动NameNode的守护线程, 从而将SecondaryNameNode文件目录下的数据拷贝到NamenNode中具体操作方法方法一模拟Nam...原创 2019-05-20 18:11:41 · 1737 阅读 · 0 评论 -
HDFS的HA(高可用)
HDFS的HA(高可用)概述(1)实现高可用最关键的策略是【消除单点故障】。HA 严格来说应该分成各个组件的 HA 机制:HDFS 的 HA 和 YARN 的 HA。(2)Hadoop2.0 之前,在 HDFS 集群中 NameNode 存在单点故障(SPOF)。(3)NameNode 主要在以下两个方面影响 HDFS 集群: a)NameNode 机器发生意外,如宕机,集群将无法...原创 2019-05-20 15:58:25 · 477 阅读 · 0 评论 -
DataNode的工作机制
DataNode的工作机制一个数据块在DataNode以文件的形式在磁盘上保存,分为两个文件,一个是数据本身,一个是元数据信息(包括数据的长度,校验和,时间戳)1.DataNode启动后,向NameNode进行注册2.NameNode返回注册成功3.以后按照每周期(1小时)上报所有块信息4.心跳每3秒一次,心跳返回带有NameNode给DataNode的命令5.超过10分钟+ti...原创 2019-05-20 15:02:15 · 690 阅读 · 0 评论 -
NameNode和SecondaryNameNode的工作机制
NameNode&Secondary NameNode 工作机制NameNode: 1.启动时,加载编辑日志和镜像文件到内存 2.当客户端对元数据进行增删改,请求NameNode 3.NameNode记录操作日志,更新滚动日志 4.日志记录完成,在NameNode内存中对元数据进行操作 edits.001 操作日志 edits.002 edits.inprogress ...原创 2019-05-20 12:19:38 · 1150 阅读 · 0 评论 -
HDFS读写数据流程
HDFS的组成1.NameNode:存储文件的元数据,如文件名,文件目录结构,文件属性(创建时间,文件权限,文件大小)以及每个文件的块列表和块所在的DataNode等。类似于一本书的目录功能。2.DataNode:在本地文件系统存储文件块数据,以及块数据的校验和。3.SecondaryNameNode:用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。HDFS写数据...原创 2019-05-20 11:10:09 · 314 阅读 · 0 评论 -
hadoop之安装hadoop
官网http://hadoop.apache.org/下载页:https://hadoop.apache.org/releases.html上传安装包到Linux解压并进入到目录下[root@hadoop101 software]# tar -zxf hadoop-2.7.2.tar.gz -C /opt/module/[root@hadoop101 software]# ls /op...原创 2019-01-09 15:52:34 · 495 阅读 · 0 评论 -
hadoop的运行模式
概述 1)资料查询(官方网址) (1)官方网站: http://hadoop.apache.org/ (2)各个版本归档库地址 https://archive.apache.org/dist/hadoop/common/hadoop-2.7.7/ (3)hadoop2.7.6版本详情介绍 https://hadoop.apache.org/docs/r2...原创 2019-05-20 23:52:30 · 841 阅读 · 0 评论 -
Yarn工作机制
概述(0)Mr 程序提交到客户端所在的节点。(1)Yarnrunner 向 Resourcemanager 申请一个 Application。(2)rm将该应用程序的资源路径和ApplicationId返回给 yarnrunner。(3)该程序将运行所需资源提交到 HDFS 上。(4)程序资源提交完毕后,申请运行 mrAppMaster。(5)RM 将用户的请求初始化成一个 task...原创 2019-05-23 12:00:28 · 274 阅读 · 0 评论