虎啸千峰-CSDN博客

原创 hplSQL参数设置不对导致的错误

一、概述hplsql有两种计算引擎，一种是hive on mr，另外一种是hive on spark；在设置map和reduce参数时，由于设置参数问题导致一个 return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTast错误，同样的SQL在spark引擎上没有出现。二、错误分析和解决通过查看执行日志发现这么一条error记录。经过排查发现，mapreduce.map.memory.mb设置的值为5120M，超过了...

2020-11-20 20:11:41 344

转载 Yarn模式下Mapreduce的内存参数理解以及xml参数配置

一、概述MapReduce主要靠yarn进行资源分配，因此，进行MapReduce作业时，可以通过调节对应的yarn和hive参数优化MapReduce作业。Container是一个逻辑上的yarn资源容器；Container就是一个yarn的java进程，在Mapreduce中的AM，MapTask，ReduceTask都作为Container在Yarn的框架上执行，你可以在RM的网页上【8088端口】看到Container的状态。二、yarn资源管理及设置Yarn的ResourceM..

2020-11-20 18:56:07 1675

转载 MapReduce中决定Map个数的因素

一、概述　在执行MapReduce作业时，在map阶段读取数据前，FileInputFormat会根据一定的规则将将输入文件split成数据块进行分布式读取。split的个数决定了map的个数。影响文件切分的因素主要包括以下几个：二、影响文件切分的几个因素1、HDFS块的大小 Hdfs块的大小，也就是hadoop中dfs.block.size的大小。hadoop默认数据块的大小为128M；假如一个文件的大小是256M，则文件会被split为2个map。2、文件大小当分块大小为1..

2020-11-20 17:18:36 3515

原创 TDH添加自定义参数

一、概述 TDH只是预定义了一些参数，如果某些参数需要用到，在预定义参数中又找不到的话，我们可以通过"添加自定义参数”的形式添加我们需要的参数。二、添加MapReduce参数 2.1 MapReduce常用调节参数在job执行过程中，如果某个task需要的内存比较大，则需要单独设置mpreduce.map.memory.mb;mapreduce.reduce.memory.mb;mapreduce.map.java.opts;mapreduce.reduce.j...

2020-11-09 17:41:28 458

原创 quickSQL调试过程中报SPARK_HOME找不到解决方法

一、概述最近在调研统一Sql解析方法，发现开源的quickSQL可以满足这一要求，就是该社区太不活跃了，文档也不全，现在将quickSQL编译中遇到的坑分享一下二、Spark的home路径找不到问题解决方法1、在window环境中配置SPARK_HOME路径2、在window环境中配置HADOOP_HOME路径3、将SPARK_HOME和HADOOP_HOME的路径配置到path环境变量中4、在IDEA环境中配置SPARK_HOME路径...

2020-11-03 15:12:01 658

原创 Exception in thread “main“ java.lang.NoSuchMethodError: net.jpountz.lz4.LZ4BlockInputStream.＜init＞

quickSQL编译过程中出现：Exception in thread "main" java.lang.NoSuchMethodError: net.jpountz.lz4.LZ4BlockInputStream.<init>(Ljava/io/InputStream;Z)V的错误。问题原因 1.spark2.4.5用到了lz4-1.3.0.jar，kafka0.9.0.1用到了lz4-1.2.0.jar，而程序运行时使用的是lz4-1.3.0.jar。解决方法 qui...

2020-11-03 15:00:54 245

原创 ANTLR Tool version 4.7.2 used for code generation does not match the current runtime version 4.5.3

使用idea运行重构好的quickSQL，在编译期出现如下错误：ANTLR Tool version 4.7.2.used for code generation does not match the current runtime version 4.5.3 ANTLR原因：<dependency> <groupId>org.antlr</groupId> <artifactId>antlr4-.

2020-11-03 14:56:14 3117

转载 spark如何读取hive里面的数据（双网卡访问失败解决方法）

首先，将hive-site.xml copy到spark/conf目录下spark shell和spark sql：指定mysql驱动包位置，--jars只会在executor端读取到，driver-class-path可以在driver端读取到spark-shell/spark-sql --master local[2] --jars ~/lib/mysql-connector-java-5.1.47-bin.jar --driver-class-path ~/lib/mysql-connector

2020-07-17 09:51:45 648

原创 Git合并分支

现在需要把co-dev分支的代码合并到branch-1.0分支上：一、获取分支1、git branch -a二、先切换到branch-1.0分支上1、git checkout branch-1.02、git pull三、然后合并分支1、git merge branch-1.0 //如果有冲突，解决掉冲突2、git commit -am "合并分支"3、git pull4、git push...

2020-06-18 10:28:14 147

原创 BoneCp连接池数据源报错排查

一、概述在Sparksql中使用了BonCp连接池，在使用过程中需要json文件配置数据源；如果数据源配置出错会出现空指针异常，排查了好长时间，特此记录一下报错现象：空指针异常二、解决方法排查sink端的数据源，看看数据源json文件有没有配置错误。...

2020-06-17 09:59:07 247

虎啸千峰的博客