![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
卍杺歿卍
努力进取
展开
-
Hadoop 个人学习记录
1、Hadoop组成结构 1.1、MapReduce架构:分布式计算框架 Map阶段:各个任务并行处理数据 Reduce阶段:对map结果进行汇总 1.2、Yarn架构:资源调度框架 NodeManager(NM):单个节点的leader,管理YARN集群中的每个节点 管理单个节点的资源; 处理来自ResourceManager的命令; 处理来自ApplicationMaster的命令; ApplicationM.原创 2020-09-30 21:58:22 · 124 阅读 · 0 评论 -
Hadoop HA 原理
1、Zookeeper为基础的集群上,NameNode 部署在2个节点上;两个NameNode 在ZK中谁先注册,谁就是Active,剩余的就是Standly状态;而同一时间只有一个NameNode 对外提供服务 ->Active NameNode。 2、Zookeeper中有两个FailoverController,一个负责ANN的状态,一个监控SNN的状态,FailoverController通过心跳负责将监控信息保存在znode中。 3、Standly NN负责同步Active NN中的元数原创 2020-09-12 23:51:07 · 109 阅读 · 0 评论 -
MapReduce工作流程
1、MapReduce工作流程 (1)、客户端执行submit()方法之前,会先获取待读取文件的信息; (2)、将文件切片信息,jar包,job.xml 提交到yarn; (3)、yarn根据job.xml ,启动切片数量相应的MapTask; (4)、MapTask 调用inputFormat()方法读取HDFS文件,InputFormat()方法调用RecordRead()方法,默认TextInputFormat()将数据以行首字母的偏移量为key,一行数据为value,传到map...原创 2020-09-09 23:36:19 · 418 阅读 · 0 评论 -
HDFS序列化与反序列化
1、序列化:将内存中的对象,转成字节序列,可以用于在网络传输或者持久化到磁盘上。 2、反序列化:将网络中接收到的字节序列或者磁盘持久化的数据,转换成内存中的对象。 3、Hadoop本身是Java开发,为什么不直接使用java序列化框架(Serializable)? Java的序列化是一个重量级框架,一个对象被序列化之后,除了序列化数据之外,还会附带很多信息(数据校验信息,Header等),无效的数据太多,在网络传输较慢,序列化后很占内存。所以,Hadoop自己实现一套序列化机制(Writab...原创 2020-09-08 22:39:39 · 210 阅读 · 0 评论 -
HDFS 读写流程
HDFS 读写流程 1、写数据流程 1.1、数据写入流程说明: client向nameNode 请求文件上传,nameNode检查目标文件是否存在,父目录是否存在; nameNode返回是否可以上传; client对文件切分,请求第一个block传输到哪些DataNode服务器上; NameNode 返回3个DataNode 服务器DataNode1,DataNode2,DataNode3; client...原创 2020-07-04 17:39:46 · 136 阅读 · 0 评论 -
Hadoop 常用shell命令
dfs 是fs 的实现类 hadoop dfs [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-checksum <src> ...] [-chgrp ...原创 2020-07-01 22:17:00 · 149 阅读 · 0 评论