![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
ArtisticLife
这个作者很懒,什么都没留下…
展开
-
Hadoop MR Shuffle
shuffle 的过程是在 MapTask 之后 reducerTask 之前的这么一段对数据处理传递的过程 分区 mapTask 执行数据操作后, 将输出数据存储到 环形缓冲区 中, 当环形缓冲区内数据量达到最大量(默认 100M)的 80%时, 将内部数据溢写到磁盘中存储,然后环形缓冲区再进行反向写入剩余数据; 写入磁盘时会对数据进行分区,默认分区为 0(不分区),分区数,会影响最终redu...原创 2020-04-05 22:56:44 · 181 阅读 · 0 评论 -
Hadoop MR 数据切片与输入格式化
切片 MapReduce 执行中是以mapTask 为单位对数据进行处理, mapTask 的个数与操作数据段是由切片决定的 切片是在单个文件的基础上通过一些机制设定的 默认 MapReduce 使用 TextInputFormat 对数据进行读取分片, 切片大小默认为 block 大小 切片过大会造成按个 mapTask 执行时间长,不能充分利用 hadoop 集群 data...原创 2020-04-04 23:08:38 · 458 阅读 · 0 评论 -
adoop MR mapreduce和序列化
mapreduce 分三部分 mapper reducer driver 仿写 wordCount /** * <h3>study-all</h3> * * <p></p> * * @Author zcz * @Date 2020-03-31 20:48 */ public class WordCountMapper extends...原创 2020-04-01 22:17:45 · 125 阅读 · 0 评论 -
hadoop hdfs DataNode管理
与 NameNode 通信 dataNode向 nameNode发送注册节点请求 nameNode 将数据写入到元数据存储, 并返回节点注册成功 dataNode 周期性向 nameNode 上报节点数据信息, 保证 nameNode 元数据与 dataNode 节点数据一致 dataNode 每 3 秒向 nameNode 发送心跳, nameNode 返回没有执行命令的确认数...原创 2020-03-29 22:33:53 · 242 阅读 · 0 评论 -
hadoop hdfs NameNode 与 Secondary NameNode元数据操作
元数据生成与备份 集群启动 nameNode 节点下会生成 edit 操作日志和 fsImage 元数据文件镜像 两类数据磁盘备份, 并加载到内存中 客户端向 nameNode 请求对数据操作(增删改) nameNode 想 edit 操作日志文件追加操作记录(增删改) 文件数据追加结束后, 将 nameNode 元数据进行修改 secondary NameNode 会定期检查 nameNod...原创 2020-03-29 14:58:35 · 327 阅读 · 0 评论 -
hadoop hdfs 数据读写
hdfs 文件上传过程 向 namenode 请求上传文件 响应可以上传文件 向 namenode 请求, 上传到哪几台 dataNode Namenode 返回,指定文件上传的 datanode 节点数据 通过获取到的 namenode 节点信息, 客户端向一个节点发送通信, 开通数据通信管道 确认建立通道 创建 FSDataOutputStream 客户端开始向...原创 2020-03-29 11:08:18 · 117 阅读 · 0 评论 -
hadoop hdfs 开发环境
测试 创建项目添加 pom 依赖 <dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> ...原创 2020-03-28 18:06:50 · 141 阅读 · 0 评论 -
Hadoop shell 命令
hadoop 与 hdfs bin/hadoop fs Command 或 bin/hdfs dfs Command hadoop 命令包含 hdfs 命令, dfs 是 fs 的实现类 FileSystem shell 文件命令 -help 查看 hadoop 或 hdfs 命令的参数 hdfs dfs -help rm 或 hadoop fs -help rm -ls: 显示...原创 2020-03-28 12:42:32 · 106 阅读 · 0 评论 -
Hadoop 编译64 位
准备 jdk8 apache-ant-1.9.14-bin.tar.gz apache-maven-3.6.3-bin.tar.gz protobuf-2.5.0.tar.gz hadoop-2.9.2-src.tar.gz 安装环境 配置 jdk tar -zxvf jdk -C /opt/modules/ 配置环境变量 省略... 配置 配置 maven tar -zxvf apac...原创 2020-03-27 22:05:48 · 136 阅读 · 0 评论 -
hadoop完全高可用配置
保证普通集群可运行后, 修改配置文件 高可用依赖 zookeeper 集群实现主从切换 先搭建 zookeeper 集群, 详见 zookeeper 集群部署 core-site.xml <configuration> <property> <name>fs.defaultFS</name> <value>hdfs:/...原创 2019-12-02 23:40:25 · 270 阅读 · 0 评论 -
hadoop集群搭建
准备 环境: Linux(CentOS 7) jdk8 安装包 这里使用hadoop-2.9.2-64.tar.gz 安装 创建用户 groupadd hadoop #创建用户组 useradd -g hadoop hadoop #创建用户并添加用户组 passwd hadoop #修改用户密码 修改用户权限 vim /etc/sudoers 添加hadoop用户的权...原创 2019-12-01 11:59:37 · 87 阅读 · 0 评论