2018年02月_小小Tiny

原创 Spark动态资源分配

0x0 介绍再java中使用SparkSession来执行spark任务在代码编写上很方便，但是有个问题：SparkSession关闭后无法再次开启，这导致我们会一致占用申请到的Spark集群资源（包括内存和CPU），为了优化这一问题，笔者采用两种方式：一、采用SparkSubmit来提交任务，从而达到每次执行完JOB就释放资源，但是有个弊端：无法自由监控JOB执行过程；关于编程式提...

2018-02-28 16:17:20 1145

原创 CarbonData跨库查询异常BUG分析与解决

0x0 背景同事最近发现CarbonData跨库多表联查时会报异常、

2018-02-25 14:33:13 626 1

原创使用JAVA代码实现编程式提交Spark任务

0x0 背景介绍项目中使用SparkSession来执行任务，出现一个问题： SparkSession开启后会一直占用集群的资源（CPU和内存），而且，SparkSession关闭后，无法再次开启（报异常）。为了解决以上问题，只有采用Java代码模拟Spark Submit来提交任务到集群，从而实现动态调用spark。 0x1 方法查看多方资料，发现三个方法，分别是： 1. ...

2018-02-24 14:42:23 10326 3

原创 Carbondata时间戳Timestamp格式差13个小时

0x0 异常将CSV文件load进table后，发现TIMESTAMP类型的列时间都对不上，正好相差13个小时0x1 分析原因UBUNTU服务器的时区有问题（美国东部时区），JDK8在获取系统时间时相应出错，从而导致CarbonData转换Timestamp出错！0x2 解决方法修改时区：修改 /etc/timezone文件（sudo vi /etc/timezone）内容为：Asia/S

2018-02-10 09:13:34 2188

错误信息 org.apache.spark.sql.AnalysisException: org.apache.hadoop.hive.ql.metadata.HiveException: MetaException(message:Unable to create database path file:/D:/Java_Tools/spark/bin/spark-warehouse/tes...

2018-02-07 14:36:02 4609

原创使用spark-shell操作Carbondata

0x0 准备下载spark，解压下载carbondata并编译将编译好的carbondata jar包放入spark的jars文件夹中如果要对HDFS的文件进行增删改，最好加入环境变量：HADOOP_USER_NAME=hdfs可以启动spark-shell了0x1 以local模式启动spark-shell1. 启动脚本./bin/spark-shell2. scala语句import o

2018-02-06 21:51:51 863

原创 carbondata 1.2.0无法对分区的表进行UPDATA操作

版本问题，当前版本1.2及以下的版本对于HASH分区和RANGE分区的carbondata数据无法update （经测试，对于一条一条插入的数据可以update，但是对于load进表的数据无法update） 1.3会加入这个特性 ================================== **经测试 1.3仍未加入该特性！这群骗子**...

2018-02-05 09:51:35 533

gx304419380的博客