Hadoop
文章平均质量分 63
hadoop的相关操作
黄土高坡上的独孤前辈
010101010101010101010101010101
展开
-
大数据开发好的文章
阿里云开发者社区原创 2023-05-14 14:38:27 · 115 阅读 · 0 评论 -
大数据集群服务状态查询
文章目录1.查看namenode状态2.查看ResouceManager 状态1.查看namenode状态[root@hadoop01 ~]# hdfs haadmin -getServiceState nn1 active[root@hadoop01 ~]# hdfs haadmin -getServiceState nn2 standby[root@hadoop01 ~]# 2.查看ResouceManager 状态 [root@hadoop01 ~]# yarn rmadmin -g原创 2021-01-27 16:54:27 · 269 阅读 · 0 评论 -
HDFS小文件在flume、hive 、hbase、 spark、 flink中的解决方案
文章目录1.1 hdfs为什么不能小文件过多?1.1.1 概念1.1.2 发生的问题1.1.3 hadoop的默认内存大小和预估能够存储的文件数量1.1.4 修改namenode datanode的内存1.2 flume、hive、 tez、 hbase、 spark、 flink 写数据到hdfs分别怎么解决小文件?1.2.1 flume1.2.2 hive1.2.3 tez1.2.4 hbase1.2.4.1 hbase中解决hfile的小文件过多1.2.4.2 拓展1:hfile过多,对hbase性能原创 2020-11-29 14:38:02 · 1827 阅读 · 0 评论 -
从MapReduce的Shuffle原理 进行 生产参数调优
文章目录1.mapreduce的过程上图2.map 切分输入文件3.环形缓冲区3.1 原理3.2 生产调优3.2.1 mapreduce.task.io.sort.mb(default:100m)3.2.2 mapreduce.map.sort.spill.percent(default:0.80)4.数据在spill到磁盘之前会做partition,sort操作4.1 原理4.2 生产调优5. 溢写到磁盘(spill to disk)5.1 原理5.2 生产调优参数5.2.1 mapreduce.task原创 2020-07-29 20:20:05 · 1602 阅读 · 0 评论 -
hadoop生产实用技巧
文章目录1.Hadoop介绍2.hadoop hdfs安装2.1 创建用户和文件夹2.2 前面课程已经安装部署jdk2.3 hadoop解压和软连接2.4 软连接2.5 配置ssh pentaKill 无密码认证2.6 修改配置,且hdfs的三个进程都以pentaKill名称启动2.7 格式化,只需第一次即可,格式化自己的编码存储格式2.8 启动2.9 open web:2.10 创建文件夹2.11 上传linux-->hdfs2.12 计算2.13 下载从hdfs-->linux3.YARN原创 2020-05-16 15:23:57 · 938 阅读 · 0 评论 -
Mapreduce和Yarn生产上基本调优参数
文章目录1.MapReduce1.1.map 映射1.2.reduce 归约 汇总1.3.shuffle 洗牌1.4.MapReduce2.x 架构设计2.yarn的架构设计2.1 container 容器2.2 架构2.2.1几个概念2.2.2 client向rm提交应用程序流程2.2.3 wordcount案例 理解split个数==map task个数3.yarn的调优及三种资源调度方式3.1.Container3.2 生产如何调优container参数?3.2.1 系统装完 消耗1G3.原创 2020-05-23 11:49:18 · 373 阅读 · 0 评论 -
HadoopHA之NameNode HA With QJM
文章目录1.hadoop ha1.1 节点1.2 hadoop ha 架构图2.hdfs ha架构2.1 架构理解2.2 各个组件的功能3.yarn ha架构1.hadoop ha1.1 节点nn active 单点故障 snn checkpoint 1小时nn standby 实时备份 实时等待nn active节点挂,随时由standby 实时备份--》active 活动的1.2 hadoop ha 架构图现在企业普遍还是用2个nn 组成 hdfs ha 高可靠 zkfc(zo原创 2020-05-24 20:42:17 · 255 阅读 · 0 评论 -
yarn资源调度的几种方式与生产使用
文章目录1.yarn的资源调度方式及生产配置1.1 FIFO Scheduler 先进先出1.2 Capacity Scheduler 计算1.3 FairScheduler 公平 生产1.4 三种调度器的区别1.5 如何配置调度器2.对公平调度器的配置资源抢占的配置3. 使用公平调度器后,yarn web界面Scheduler的理解3.1 上述公平调度器配置后,yarn 队列的层级结构3.2 各个队列的资源分配情况3.3 使用公平调度器后,yarn web界面Schedule理解1.yarn的资源调度方原创 2020-07-02 16:38:19 · 3810 阅读 · 0 评论 -
Hadoop的MapReduce的源码分析——Map分片
文章目录一.map源码与输入的key是什么?1.源码中的模板设计模式1.1 什么是模板设计模式?1.2 map源码及模板设计模式1.3 reduce的源码和设计模式2.map方法中的输入key的偏移量是什么?2.1 map数据文件的源数据2.2 使用dug调试 看key的值到底是什么?3.reduce 的key/value是什么值?二.map方法的源码提交流程1.map 提交流程图2.提交源码详细解析2.1 job.waitForCompletion2.2 job.submit(job.java)2.3 s原创 2020-07-15 21:55:42 · 696 阅读 · 0 评论 -
MapReduce程序调用第三方jar的靠谱方式
文章目录1.mapreduce调用第三方jar的方式2.实操mapreduce调用第三方jar的三种方式2.1 使用分布式缓存2.2 使用GenericOptionsParser 参数解析方式2.3 使用实现Tool接口方式(推荐使用)1.mapreduce调用第三方jar的方式 首先,最简单的方式是将依赖jar打成fat jar,直接包含在提交程序中。但是这种方式导致不同的mapreduce项目,都是fat jar,占用磁盘空间不说,也不易于jar包管理。 其次,网上还有一种比较多的方式,将原创 2020-07-19 17:43:26 · 757 阅读 · 0 评论
分享