hadoop
杨大大慌
这个作者很懒,什么都没留下…
展开
-
HDFS高可用的启动
HDFS高可用的启动在三台机器上分别启动zookeeper[root@master ~]# zkServer.sh start启动Zookeeper之后,可以分别在3台机器上使用如下命令查看Zookeeper的启动状态:[root@master ~]# zkServer.sh status在master机器上启动HDFS:[root@master ~]# start-dfs...原创 2019-09-01 16:26:03 · 431 阅读 · 0 评论 -
Hadoop分组函数的使用
Hadoop的分组函数的使用的注意事项Hadoop的分组函数可以继承WritableComparator,也可以继承RawComparator继承WritableComparator时必须写构造方法调用super(比较类的.class,true)继承WritableComparator若是系统有分类就不能使用会报错,就是反序列化不成功继承RawComparator要重写两个方法,根据需求...原创 2019-09-08 19:54:09 · 212 阅读 · 1 评论 -
job提交作业流程
job提交作业流程调用waitForCompletion每秒轮询作业进度,内部封装了submit()方法用于创建jobCommit的实例,jobCommit的实例实例会调用自己的submitJobInternal提交作业,如果状态有变化就将作业进度输出在控制台,如果失败也会将错误输出jobCommit会向ResourceManager申请一个id号用于MapReduce作业,同时检查输出路径...原创 2019-09-07 08:59:18 · 419 阅读 · 0 评论 -
HDFS的读写流程
HDFS的读流程客户端通过FileSystem的对象调用open()方法给namenode发送打开一个文件的请求在namenode角度来看客户端是通过DisturbuedSystem发送到请求,namende收到请求后会验证客户端是否有权限读取该文件,该文件是否存在等一系列验证,经过验证后,namenode会返回给客户端一个FSDataInputstream流(可以定位数据副本的位置方便读取...原创 2019-09-05 20:35:44 · 116 阅读 · 0 评论 -
MR的入门案例
MR的入门案例要求统计文件的数据并且排序去重a.txt12 123 34 1 5 345 23b.txt34 12345 34 1 3 5 57 4c.txt12 23 45 12 56 89 77 57MyDriverpackage com.qf.test;import org.apache.hadoop.conf.Configuration;import org.ap...原创 2019-09-05 10:23:00 · 838 阅读 · 0 评论 -
Hadoop的高可用的搭建
Hadoop的高可用的配置zookeeper的安装上传文件解压配置环境变量#zookeeperZK_HOME=/opt/apps/zookeeperPATH=$PATH:$ZK_HOME/binexport ZK_HOME PATH修改zook.cfg将zook_sample.cfg 复制一份 cp zook_sample.cfg zook.cfgzook.cfg的内容为...原创 2019-09-05 09:59:31 · 92 阅读 · 0 评论 -
shuffle
shuffle的开始shuffle过程从map写数据到环形缓冲区到reduce读取数据并合并1. 从map的函数输出阶段开始到reduce函数接受输入数据, 这个过程称为shuffle2. map函数的输出,存储到环形缓冲区(默认大小100M,阈值80M) 环形缓冲区:其实就是一个kvbuffer,有一个sequator标记,kv原始数据从顺时针填充, 用于存储kv原始数据的对应的与那...原创 2019-09-04 20:35:49 · 253 阅读 · 0 评论 -
MR的分片机制
分片机制分片简介 Hadoop将MapReduce的MapReduce的输入数据划分为等长的小数据块, 称之为输入分片(inputSpilt)或者简称“分片”Hadoop为为一个分片构建一 个单独的map任务,并由该任务来运行用户自定义的map方法,从而处理分片的每一条数据...原创 2019-09-04 20:32:37 · 845 阅读 · 0 评论 -
全分布式的搭建
HDFS的完全分布式规划master: namenode,secondarynamenode,ResourceManager,datanodeslave1: datanode,NodeManagerslave2: datanode,NodeManagercore-site.xml<configuration><!--指定命名节点URI也就是namenode节点...原创 2019-09-01 20:53:26 · 203 阅读 · 0 评论 -
HDFS单机版的配置测试
HDFS单机版的配置测试作用用于对MapReduce程序的逻辑进行调试,确保程序的正确。由于在本地模式下测试和调试MapReduce程序较为方便,因此,这种模式适宜用在开发阶段。准备一台虚拟机要求配置好jdk,添加一个用户,centos系统,在/opt目录下创建一个apps得目录mkdir /opt/apps 并且修改拥有者与所属组 chown hadoop:hadoop /opt/a...原创 2019-09-01 17:13:53 · 209 阅读 · 0 评论