安装指南
本教程将指导你通过以下两种模式安装和配置 CarbonData:
其次是 :
在 Spark 独立模式集群上安装和配置 CarbonData
前置条件
Hadoop HDFS 和 Yarn 需要安装和运行。
Spark 需要在所有的集群节点上安装并且运行。
CarbonData 用户需要有权限访问 HDFS.
步骤
编译 CarbonData 工程,并且从 ./assembly/target/scala-2.1x/carbondata_xxx.jar 路径获取 assembly jar。
将 ./assembly/target/scala-2.1x/carbondata_xxx.jar 文件复制到 $SPARK_HOME/carbonlib 目录。
注意: 如果 $SPARK_HOME 路径下不存在 carbonlib 文件夹,请事先创建它。
将 carbonlib 文件夹路径添加到 Spark classpath 中。 (编辑 $SPARK_HOME/conf/spark-env.sh 文件,然后修改 SPARK_CLASSPATH 属性,将 $SPARK_HOME/carbonlib/* 追加到现有值的后面)
从 CarbonData repository 复制 ./conf/carbon.properties.template 文件到 $SPARK_HOME/conf/ 文件夹下面,并将它重命名为 carbon.properties。
在集群上的所有节点重复执行步骤2到步骤5
在 Spark 集群的主节点的 $SPARK_HOME/conf/spark-defaults.conf 文件中配置下表提到的属性。
属性
值
描述
spark.driver.extraJavaOptions
-Dcarbon.properties.filepath = $SPARK_HOME/conf/carbon.properties
传递给 driver 的额外 JVM 选项。例如,GC 设置或其他日志记录。
spark.executor.extraJavaOptions
-Dcarbon.properties.filepath = $SPARK_HOME/conf/carbon.properties
传递给 executors 的额外 JVM 选项。例如,GC 设置或其他日志记录。 注意: 多个属性值以空格分隔。
将下面的配置添加到 $SPARK_HOM