- 博客(7)
- 收藏
- 关注
原创 Spark动态资源分配
0x0 介绍 再java中使用SparkSession来执行spark任务在代码编写上很方便,但是有个问题:SparkSession关闭后无法再次开启,这导致我们会一致占用申请到的Spark集群资源(包括内存和CPU),为了优化这一问题,笔者采用两种方式: 一、 采用SparkSubmit来提交任务,从而达到每次执行完JOB就释放资源,但是有个弊端:无法自由监控JOB执行过程; 关于编程式提...
2018-02-28 16:17:20 1145
原创 使用JAVA代码实现编程式提交Spark任务
0x0 背景介绍 项目中使用SparkSession来执行任务,出现一个问题: SparkSession开启后会一直占用集群的资源(CPU和内存),而且,SparkSession关闭后,无法再次开启(报异常)。 为了解决以上问题,只有采用Java代码模拟Spark Submit来提交任务到集群,从而实现动态调用spark。 0x1 方法 查看多方资料,发现三个方法,分别是: 1. ...
2018-02-24 14:42:23 10326 3
原创 Carbondata时间戳Timestamp格式差13个小时
0x0 异常将CSV文件load进table后,发现TIMESTAMP类型的列时间都对不上,正好相差13个小时0x1 分析原因UBUNTU服务器的时区有问题(美国东部时区),JDK8在获取系统时间时相应出错,从而导致CarbonData转换Timestamp出错!0x2 解决方法修改时区: 修改 /etc/timezone文件(sudo vi /etc/timezone) 内容为:Asia/S
2018-02-10 09:13:34 2188
原创 SparkSQL创建数据库报错
错误信息 org.apache.spark.sql.AnalysisException: org.apache.hadoop.hive.ql.metadata.HiveException: MetaException(message:Unable to create database path file:/D:/Java_Tools/spark/bin/spark-warehouse/tes...
2018-02-07 14:36:02 4609
原创 使用spark-shell操作Carbondata
0x0 准备下载spark,解压 下载carbondata并编译 将编译好的carbondata jar包放入spark的jars文件夹中如果要对HDFS的文件进行增删改,最好加入环境变量:HADOOP_USER_NAME=hdfs可以启动spark-shell了0x1 以local模式启动spark-shell1. 启动脚本./bin/spark-shell2. scala语句import o
2018-02-06 21:51:51 863
原创 carbondata 1.2.0无法对分区的表进行UPDATA操作
版本问题,当前版本1.2及以下的版本对于HASH分区和RANGE分区的carbondata数据无法update (经测试,对于一条一条插入的数据可以update,但是对于load进表的数据无法update) 1.3会加入这个特性 ================================== **经测试 1.3仍未加入该特性!这群骗子**...
2018-02-05 09:51:35 533
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人