![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop2.X 学习笔记
Hadoop2.X学习笔记
一角残叶
人生如逆旅,我亦是行人
展开
-
Hadoop-2.x 学习笔记(1) —— 分布式文件系统 HDFS 和分布式资管理 YARN
1 HDFS 功能NameNode.主节点,存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表和块所在 DataNode;DataNode,在本地文件系统存储文件块数据,以及块数据的检验和;Secondary NameNode,监控 HDFS 状态的辅助后台程序,每隔一段时间获取 HDFS 元数据的快照;2 YARN 功能Reso...原创 2019-01-12 12:21:05 · 300 阅读 · 0 评论 -
Hadoop-2.x 学习笔记(8) —— 集群基准测试
1 集群基准测试1.1 基本测试服务启动,是否可用,简单的应用测试hdfs- hdfs dfs -mkdir -p /user/tmpyarn : run jarmapreduce : yarn jar1.2 基准测试测试集群的性能hdfs读、写数据监控集群Cloudera Manager: 部署安装集群,配置同步,预警2 内网集群的时间同步找一...原创 2019-01-15 16:26:42 · 239 阅读 · 0 评论 -
Hadoop-2.x 学习笔记(7) ——MapRedce执行流程 Shuffle
1 Shufflestep1(input)InputFormat- 读取数据- 转换成<key,value>FileInputFormat- TextInputFormatstep2 (map)ModuleMapper- map(KEYIN,VALUEIN,KEYOUT,VALUEOUT), - 默认情况下:KEYIN : LongWrita...原创 2019-01-15 09:37:26 · 891 阅读 · 1 评论 -
Hadoop-2.x 学习笔记(7) ——MapRedce框架数据类型
1 MapRedce框架数据类型数据类型都实现 Writable 接口,以便用这些类型定义的数据可以被序列化进行网络传输和文件存储;1.1 基本数据类型BooleanWritableByteWritableDoubleWritableFloatWritableIntWritableLongWritableText:使用 UTF-8 格式存储的文本NullWritable...原创 2019-01-14 22:08:35 · 289 阅读 · 0 评论 -
Hadoop-2.x 学习笔记(6) ——MapRedce 单词统计
1 单词统计package beifeng.wc;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org...原创 2019-01-14 22:10:14 · 206 阅读 · 0 评论 -
Hadoop-2.x 学习笔记(5) —— YARN
1 ResourceManager全局的资源管理器,整个集群只有一个功能- 处理客户端请求- 启动,监控 ApplicationMaster- 监控 NodeManager- 资源分配与调度2 NodeManager整个集群有多个,负责单节点资源管理和使用;功能- 单个节点上资源管理和任务管理- 处理来自 ResourceManager 的命令- 处理来自 App...原创 2019-01-14 18:04:45 · 594 阅读 · 1 评论 -
Hadoop-2.x 学习笔记(4) ——NameNode 启动过程 +SecndaryNameNode
1 NameNode 启动过程1.1 数据存放位置内存本地磁盘fsimage(格式化HDFS,就是为了生成 fsimage)edits1.2 过程分析formatfsimagestart NameNode- read fsimagestart DataNode- 注册- block reportcreate dir /wcinput =>...原创 2019-01-14 16:23:37 · 403 阅读 · 0 评论 -
Hadoop-2.x 学习笔记(3) —— HDFS Java API
1 获取 FileSystem 对象原创 2019-01-14 15:57:19 · 181 阅读 · 0 评论 -
Hadoop-2.x 学习笔记(3) —— HDFS架构
1 NameNodeNameNode 是一个中心服务器,负责管理文件系统的名字空间(namespace)以及客户端对文件的访问;文件操作,NameNode 负责文件元数据的操作,DataNode 负责处理文件内容的读写请求,与文件内容相关的数据流不经过NameNode,只会询问它跟哪个 DataNode 联系,否则NameNode 会成为系统的瓶颈;副本存放在哪些 DataNode 上由 ...原创 2019-01-14 14:25:07 · 1108 阅读 · 0 评论 -
Hadoop-2.x 学习笔记(2) —— MapReduce 历史服务配置启动查看,YARN 日志聚集
1 MapReduce 历史服务配置查看已经运行完成的 MapReduce 作业记录。默认,历史服务器没有启动;启动 :sbin/mr-jobhistory-daemon.sh start historyserverWEB UI : node1:198881.1 mapred-site.xml <property> <name>mapred...原创 2019-01-14 12:00:37 · 372 阅读 · 0 评论 -
Hadoop-2.x 学习笔记(9) —— HDFS HA 架构
1 背景介绍Hadoop 2.0 以前,在HDFS 集群中 NameNode 存在单点故障(SPOF)。对于只有一个 NameNode 的集群,若 NameNode 机器出现故障,则整个集群无法工作;NameNode 主要影响HDFS 一下2个方面1. NameNode 发生意外,如宕机,集群将无法使用2. NameNode 机器需要升级,包括软件,硬件升级HDFS HA 功能通...原创 2019-01-15 18:47:05 · 356 阅读 · 0 评论