hadoop问题
cuichunchi
java开发 后期 转向了大数据开发 有小伙伴想转大数据可以咨询我哟
展开
-
Hadoop大数据Reduce阶段源码个人分析以及配置讲解
再次看hadoop源码收集每一步使用到的参数用于后期调优官网地址:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/core-default.xmlhttps://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/hdfs-default.xmlhttps://hadoop.apache.org/docs/stable/had原创 2020-12-07 14:29:48 · 289 阅读 · 0 评论 -
hadoop中mapreduce源码个人记录
以下主要分析记录map阶段:org.apache.hadoop.mapred.MapTask$MapOutputBufferpublic static class MapOutputBuffer<K extends Object, V extends Object> implements MapOutputCollector<K, V>, IndexedSortable{//省略...public void init(MapOutputCollector.Co原创 2020-11-24 20:55:52 · 156 阅读 · 0 评论 -
hadoop中mapreduce的内存环形缓冲区个人讲解
map阶段的内存环形缓冲区相关参数配置:mapreduce.task.io.sort.mb:排序文件时需要使用的缓冲内存总量,默认100mapreduce.map.sort.spill.percent:阈值,当内存达到80%的io.sort.mb,则写入到文件。以下是个人图解,后期概念在补齐:...原创 2020-11-23 20:17:21 · 1337 阅读 · 0 评论 -
YARN 各个阶段配置参数总结,方便查找优化
YARN配置参数介绍通信地址类参数: 参数名称 默认值 说明 Yarn.resourcemanager.address 0.0.0.0:8032 RM对外的IPC地址 Yarn.resourcemanager.scheduler.address 0.0.0.0:8030 调度器对外的IPC地址 Yarn.r原创 2020-11-18 20:30:07 · 1238 阅读 · 0 评论 -
Hive on tez 运行报错集锦
执行 hive:直接报java.lang.ClassNotFoundException: org.apache.hadoop.mapred.MRVersionCDH集群安装组件都ok,在Hue界面中使用Hive的HQL是都是ok的但是直接在liunx中,打开客户端命令:执行 hive:直接报java.lang.ClassNotFoundException: org.apache.hadoop.mapred.MRVersion解决方案:因为CDH的hive-site.xml配置文件中没原创 2020-10-26 15:32:24 · 2038 阅读 · 0 评论 -
Hive 动态分区插入数据总结
Hive 动态分区插入数据总结1、问题描述执行以下sql导致reduce端OOM,分区数有485个按天分区,数据主要是存量数据一次性导入数仓中遇到的问题。服务器 :8核12G内存Map内存参数值:mapreduce.map.memory.mb=1024mapreduce.map.java.opts=-Xmx768m-XX:+UseConcMarkSweepGC;Reduce内存参数值:mapreduce.reduce.memory.mb=2048mapreduce.re.原创 2020-09-23 15:16:49 · 969 阅读 · 0 评论 -
Hadoop基础面试精选
Hadoop基础面试精选1、Hadoop1.x和Hadoop2.x的区别: a、1.x:Common(辅助工具)、HDFS(数据存储)、MapReduce(计算+资源调度) b、2.x:Common(辅助工具)、HDFS(数据存储)、MapReduce(计算)、Yarn(资源调度) 答:在hadoop1.x时代中,hadoop中的mapreduce同时处理业务逻辑运算和资源调度,耦合性较大, 在hadoop2.x时代中,增加了yarn。分担了1.x版本的资源调度的...原创 2020-06-06 10:42:51 · 397 阅读 · 0 评论 -
hadoop环境调错
File /user/cuichunchi/hadoop/NOTICE.txt._COPYING_ could only be replicated to 0 nodes instead of minReplication (=1). There are 3 datanode(s) running and 3 node(s) are excluded in this operation.上...原创 2019-11-19 22:26:47 · 272 阅读 · 0 评论