spark-sql常用的查询工具,速度比较hivesql要快。但是cdh6并没有spark-sql。
1,取消环境变量
# unset KAFKA_HOME FLUME_HOME HBASE_HOME HIVE_HOME SPARK_HOME HADOOP_HOME SQOOP_HOME KYLIN_HOME
以前装过独立的hadoop生态圈,最好是取消掉。
2,遇到的问题
Warning: Failed to load org.apache.spark.sql.hive.thriftserver.SparkSQLCLIDriver: org/apache/hadoop/hive/cli/CliDriver
Failed to load hive class.
You need to build Spark with -Phive and -Phive-thriftserver.
19/12/03 14:18:16 INFO util.ShutdownHookManager: Shutdown hook called
19/12/03 14:18:16 INFO util.ShutdownHookManager: Deleting directory /tmp/spark-81c54c42-0cfd-47f5-ab9e-7853ed23e181
使用了各种办法,包括下源码包重新编译都没有成功。
3,用独立安装的spark
# cp -r /bigdata/spark /opt/cloudera/parcels/CDH/lib/spark2
# cd /opt/cloudera/parcels/CDH/lib/spark2
# rm -rf conf //删除原来的配置文件
4,将cdh6 spark的配置copy到独立的spark根目录