自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 hplSQL参数设置不对导致的错误

一、概述hplsql有两种计算引擎,一种是hive on mr,另外一种是hive on spark;在设置map和reduce参数时,由于设置参数问题导致一个 return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTast错误,同样的SQL在spark引擎上没有出现。二、错误分析和解决 通过查看执行日志发现这么一条error记录。经过排查发现,mapreduce.map.memory.mb设置的值为5120M,超过了...

2020-11-20 20:11:41 344

转载 Yarn模式下Mapreduce的内存参数理解以及xml参数配置

一、概述MapReduce主要靠yarn进行资源分配,因此,进行MapReduce作业时,可以通过调节对应的yarn和hive参数优化MapReduce作业。Container是一个逻辑上的yarn资源容器;Container就是一个yarn的java进程,在Mapreduce中的AM,MapTask,ReduceTask都作为Container在Yarn的框架上执行,你可以在RM的网页上【8088端口】看到Container的状态。二、yarn资源管理及设置Yarn的ResourceM..

2020-11-20 18:56:07 1675

转载 MapReduce中决定Map个数的因素

一、概述 在执行MapReduce作业时,在map阶段读取数据前,FileInputFormat会根据一定的规则将将输入文件split成数据块进行分布式读取。split的个数决定了map的个数。影响文件切分的因素主要包括以下几个:二、影响文件切分的几个因素1、HDFS块的大小 Hdfs块的大小,也就是hadoop中dfs.block.size的大小。hadoop默认数据块的大小为128M;假如一个文件的大小是256M,则文件会被split为2个map。2、文件大小 当分块大小为1..

2020-11-20 17:18:36 3515

原创 TDH添加自定义参数

一、概述 TDH只是预定义了一些参数,如果某些参数需要用到,在预定义参数中又找不到的话,我们可以通过"添加自定义参数”的形式添加我们需要的参数。二、添加MapReduce参数 2.1 MapReduce常用调节参数在job执行过程中,如果某个task需要的内存比较大,则需要单独设置mpreduce.map.memory.mb;mapreduce.reduce.memory.mb;mapreduce.map.java.opts;mapreduce.reduce.j...

2020-11-09 17:41:28 458

原创 quickSQL调试过程中报SPARK_HOME找不到解决方法

一、概述最近在调研统一Sql解析方法,发现开源的quickSQL可以满足这一要求,就是该社区太不活跃了,文档也不全,现在将quickSQL编译中遇到的坑分享一下二、Spark的home路径找不到问题解决方法1、在window环境中配置SPARK_HOME路径2、在window环境中配置HADOOP_HOME路径3、将SPARK_HOME和HADOOP_HOME的路径配置到path环境变量中4、在IDEA环境中配置SPARK_HOME路径...

2020-11-03 15:12:01 658

原创 Exception in thread “main“ java.lang.NoSuchMethodError: net.jpountz.lz4.LZ4BlockInputStream.<init>

quickSQL编译过程中出现:Exception in thread "main" java.lang.NoSuchMethodError: net.jpountz.lz4.LZ4BlockInputStream.<init>(Ljava/io/InputStream;Z)V的错误。问题原因  1.spark2.4.5用到了lz4-1.3.0.jar,kafka0.9.0.1用到了lz4-1.2.0.jar,而程序运行时使用的是lz4-1.3.0.jar。解决方法 qui...

2020-11-03 15:00:54 245

原创 ANTLR Tool version 4.7.2 used for code generation does not match the current runtime version 4.5.3

使用idea运行重构好的quickSQL,在编译期出现如下错误:ANTLR Tool version 4.7.2.used for code generation does not match the current runtime version 4.5.3 ANTLR原因:<dependency> <groupId>org.antlr</groupId> <artifactId>antlr4-.

2020-11-03 14:56:14 3117

转载 spark如何读取hive里面的数据(双网卡访问失败解决方法)

首先,将hive-site.xml copy到spark/conf目录下spark shell和spark sql:指定mysql驱动包位置,--jars只会在executor端读取到,driver-class-path可以在driver端读取到spark-shell/spark-sql --master local[2] --jars ~/lib/mysql-connector-java-5.1.47-bin.jar --driver-class-path ~/lib/mysql-connector

2020-07-17 09:51:45 648

原创 Git合并分支

现在需要把co-dev分支的代码合并到branch-1.0分支上:一、获取分支1、git branch -a二、先切换到branch-1.0分支上1、git checkout branch-1.02、git pull三、然后合并分支1、git merge branch-1.0 //如果有冲突,解决掉冲突2、git commit -am "合并分支"3、git pull4、git push...

2020-06-18 10:28:14 147

原创 BoneCp连接池数据源报错排查

一、概述在Sparksql中使用了BonCp连接池,在使用过程中需要json文件配置数据源;如果数据源配置出错会出现空指针异常,排查了好长时间,特此记录一下报错现象:空指针异常二、解决方法排查sink端的数据源,看看数据源json文件有没有配置错误。...

2020-06-17 09:59:07 247

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除