cdh上使用spark-thriftserver操作carbondata

最新推荐文章于 2022-08-16 18:12:14 发布

Sir_yuan

最新推荐文章于 2022-08-16 18:12:14 发布

阅读量2k

点赞数

分类专栏： carbondata 文章标签： spark 分布式计算 carbondata hive jdbc

本文链接：https://blog.csdn.net/Sir_yuan/article/details/78647845

版权

carbondata 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

carbondata 是一种新型的适用于分布式计算的列式文件格式，本次使用spark-thrift方式来操作carbondata，简略介绍如何启动spark-carbondata-thriftserver。

版本

cdh 5.10.3
spark 2.1.0
carbondata 1.2.0

下载

carbondata 编译

编译环境为： jdk-1.8.0_151,maven-3.5.2(低版本的没试过，但是官方说最低：jdk7,maven3.3)

unzip apache-carbondata-1.2.0-source-release.zip
cd carbondata-parent-1.2.0
mvn -DskipTests -Pspark-2.1 -Dspark.version=2.1.0 clean package

编译成功后，会在carbondata-parent-1.2.0/assembly/target/scala-2.11/目录下出现carbondata_2.11-1.2.0-shade-hadoop2.2.0.jar（编译版本不同，jar包名称可能不一样）

启动步骤

NOTE:
1.下面的命令中，hdfs的/carbondata目录如果启动用户没有创建权限，需要用hdfs用户去创建并用chmod 命令给与用户权限读写权限。
2.启动节点不要与hiveServer2服务同节点以防止端口冲突(我目前还没找到更改该thriftserver端口的方式)。

tar -zxvf spark-2.1.0-bin-hadoop2.6.tgz
cd spark-2.1.0-bin-hadoop2.6
cp /etc/hive/conf/hive-site.xml conf #可以读取到hive的表
cp conf/spark-env.sh.template conf/spark-env.sh
vi conf/spark-env.sh
添加：
export HADOOP_CONF_DIR=/etc/hadoop/conf
export YARN_CONF_DIR=/etc/hadoop/conf.cloudera.yarn/

mkdir carbondata_lib
#将carbondata_2.11-1.2.0-shade-hadoop2.2.0.jar拷贝到 carbondata_lib目录下，如果需要设置carbondata参数，需要将carbondata-parent-1.2.0/conf目录下的carbon.properties.template文件重命名为carbon.properties并拷贝到spark-2.1.0-bin-hadoop2.6/conf目录下即可
cd bin
#启动命令为：
./spark-submit \
–master yarn \
–deploy-mode client \
–conf spark.sql.hive.thriftServer.singleSession=true \
–class org.apache.carbondata.spark.thriftserver.CarbonThriftServer \
../carbondata_lib/carbondata_2.11-1.2.0-shade-hadoop2.2.0.jar \
hdfs://[namenodeIP]:8020/carbondata

thriftServer使用

beeline -u jdbc:hive2://[启动节点ip]:10000 -n 用户名称

后记

个人认为这种方式去操作carbondata是最好的方式，用jdbc的方式毕竟是最方便的。
spark-sql和spark-shell都可以去操作，同一个版本不同的操作方式有可能出现支持的operation不同的情况。
如果资源很多的情况下，可以先调节spark的参数启动好container，让sql任务可以尽快的使用到资源，如果多个应用程序同时使用一个yarn资源，可以采用spark的动态分配，需要使用到资源时才开始请求资源，建立container。

如有问题请指正，谢谢。