前言
由于网上没有关于kettle连接sparksql的相关文章,而由于spark版本问题,造成spark中的hive依赖版本和hive的版本不同,这就造成了我连接了hive就没办法连接sparksql,所以编写以下文章帮助有同样问题的人
kettle连接sparksql
步骤很简单,将spark中的几个依赖包拷贝到data-integration\lib下即可,我下面列举几个需要的依赖包,其中有几个包在hive下spark下未找到
spark-hive-thriftserver_2.11-2.4.7.jar
spark-avro_2.11-4.0.0.jar
spark-catalyst_2.11-2.4.7.jar
spark-core_2.11-2.4.7.jar
spark-hive_2.11-2.4.7.jar
spark-network-common_2.11-2.4.7
spark-sql_2.11-2.4.7.jar
hive-cli-1.2.1.spark2.jar
hive-exec-1.2.1.spark2.jar
hive-jdbc-1.2.1.spark2.jar
hive-metastore-1.2.1.spark2.jar
protobuf-java-2.5.0.jar
libthrift-0.9.3.jar
hadoop-common-2.9.0.jar
hadoop-hdfs-2.9.0.jar
hadoop-hdfs-client-2.9.0.jar
hadoop-mapreduce-client-core-2.9.0.jar
hadoop-yarn-client-2.9.0.jar
然后选择通用连接即可连接