Spark_Hive相关的依赖冲突，后期持续更新总结

本文链接：https://blog.csdn.net/m0_46168848/article/details/129097505

Spark_Hive相关的依赖冲突持续更新总结

Spark-Hive_2.11依赖报错

这个依赖是Spark开启支持hive SQL解析，其中2.11是Spark对应的Scala版本，如Spark2.4.7，对应的Scala版本是2.11.12；这个依赖会由于Spark内部调用的依赖guava的版本问题出现冲突；这个spark版本中的guava版本为 16.0.1 ，该版本中移除了相关方法，所以会导致报错。
对于spark 2.3.2，2.4.7版本，使用的依赖如下，在本地执行测试的时候报错误：
- Exception in thread “main” java.lang.NoSuchMethodError: com.google.common.base.Stopwatch.elapsedMillis()J

报错解决办法

pom如下

<dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-sql_2.11</artifactId>
      <version>2.4.7</version>
    </dependency>

解决方法：排除依赖，如下

      <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-sql_2.11</artifactId>
      <version>2.4.7</version>
      <exclusions>
        <exclusion>
          <artifactId>guava</artifactId>
          <groupId>com.google.guava</groupId>
        </exclusion>
      </exclusions>
    </dependency>

当依赖中同时有上述两项时，如果想要使用hive支持，那么按照问题一的解决办法，排除相关依赖后，即便有hive的相关依赖，也同样会报第二个问题的错误：
- Exception in thread “main” java.lang.IllegalArgumentException: Unable to instantiate SparkSession with Hive support because Hive classes are not found.
在pom文件中添加guava 的低版本依赖可以解决上述问题。
pom

<dependency>
     <groupId>com.google.guava</groupId>
     <artifactId>guava</artifactId>
     <version>14.0.1</version>
   </dependency>

在提交任务运行时，报了如下错误：

Caused by: java.lang.BootstrapMethodError: call site initialization exception
…
Caused by: java.lang.invoke.LambdaConversionException: Invalid receiver type interface org.apache.http.Header; not a subtype of implementation type interface org.apache.http.NameValuePair

问题原因

环境中httpclient包版本太低（其他类似报错也是对应包版本问题导致）

解决方案

确定哪个包引起
找到报错中的错误信息，如本例中：
org.apache.http.Header
org.apache.http.NameValuePair
在IDEA中新建一个文件，复制上述两行代码，然后按住Ctrl,点击Header和NameValuePair跳转到他们的定义文件中。然后按住Ctrl点击定义文件上方的package，这里是http。会在IDEA左侧显示属于哪个jar包。
package org.apache.http;
IDEA里解决冲突
如果是在IDEA中开发，可参考
https://www.cnblogs.com/xxoome/p/13858569.html解决，但该方法只是在你本地开发环境（即IDEA中解决了冲突），当提交到集群环境中运行时，是会报一样的错。甚至在本地开发环境压根没遇到过jar包冲突，但到集群上去跑时，就会报错。原因是因为集群环境有自己jar包使用顺序。
spark环境中解决冲突
当我们用spark-submit或spark-shell提交代码时，Spark application运行加载依赖有三个地方：
- SystemClasspath – Spark安装时候提供的依赖包【SystemClassPath】
- Spark-submit --jars 提交的依赖包【UserClassPath】
- Spark-submit app.jar或者shadowJar打的jar 【UserClassPath】
- Spark 依赖包默认优先级
默认加载顺序如下：
SystemClasspath – Spark安装时候提供的依赖包
UserClassPath – Spark-submit --jars 提交的依赖包或用户的app.jar

依赖冲突报错java.lang.NoSuchFieldError: HIVE_STATS_JDBC_TIMEOUT

Exception in thread "main" java.lang.NoSuchFieldError: HIVE_STATS_JDBC_TIMEOUT at org.apache.spark.sql.hive.HiveUtils$.hiveClientConfigurations(HiveUtils.scala:197) at org.apache.spark.sql.hive.HiveUtils$.newClientForMetadata(HiveUtils.scala:262) at org.apache.spark.sql.hive.HiveSharedState.metadataHive$lzycompute(HiveSharedState.scala:39) at org.apache.spark.sql.hive.HiveSharedState.metadataHive(HiveSharedState.scala:38) at org.apache.spark.sql.hive.HiveSharedState.externalCatalog$lzycompute(HiveSharedState.scala:46) at org.apache.spark.sql.hive.HiveSharedState.externalCatalog(HiveSharedState.scala:45) at org.apache.spark.sql.hive.HiveSessionState.catalog$lzycompute(HiveSessionState.scala:50) at org.apache.spark.sql.hive.HiveSessionState.catalog(HiveSessionState.scala:48) at org.apache.spark.sql.hive.HiveSessionState$$anon$1.<init>(HiveSessionState.scala:63) at org.apache.spark.sql.hive.HiveSessionState.analyzer$lzycompute(HiveSessionState.scala:63) at org.apache.spark.sql.hive.HiveSessionState.analyzer(HiveSessionState.scala:62) at org.apache.spark.sql.execution.QueryExecution.assertAnalyzed(QueryExecution.scala:49) at org.apache.spark.sql.Dataset$.ofRows(Dataset.scala:64) at org.apache.spark.sql.SparkSession.sql(SparkSession.scala:582) at com.dtwave.example.Test$.main(Test.scala:21) at com.dtwave.example.Test.main(Test.scala)

两个pom文件冲突， hive经常发生这种情况，导入不同的依赖导致冲突

 <dependency>
        <groupId>org.apache.hive</groupId>
        <artifactId>hive-jdbc</artifactId>
        <version>2.1.0</version>
    </dependency>
    <dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-hive_2.11</artifactId>
    <version>2.3.1</version>
</dependency>

去掉hive-jdbc那个依赖，保留下面那个就行
产生冲突，笔者希望spark-hive_2.11依赖使spark数据处理与hive数据仓库建立连接，但是编译器使用hive-jdbc使spark数据处理与hive数据仓库建立连接，由于笔者后端无需与hive数据库直接通信，因此删除hive-jdbc即可保证使用spark-hive_2.11依赖使spark数据处理与hive数据仓库建立连接，另外，笔者认为spark hive java.lang.NoSuchFieldError: HIVE_STATS_JDBC_TIMEOUT一文与Spark运行CDH6.3.2碰到的由于hive驱动引起的问题解决方法所提到的解决办法大概是可以解决该问题，但由于笔者理解能力与编程能力都相对较差，对于上述两文的解决方案未能实现验证。

org.apache.thrift.TApplicationException: Required field ‘filesAdded‘ is unset报错

hive报错Caused by: org.apache.hadoop.hive.ql.metadata.HiveException: org.apache.thrift.TApplicationException: Required field ‘filesAdded’ is unset! Struct:InsertEventRequestData(filesAdded:null)
这个需要更改hive-site.xml里的hive.metadata.dml.events为false

问题现象
cdh6.2.1中，开启 kerberos 和 sentry 的hive 中，使用 dml 语句 insert overwrite 插入数据到分区表的新分区时，会报错。同时注意到：

查看底层 hdfs 发现对应的目录和数据都有了；
使用 show partitions xxx 查看不到对应的新分区；
使用 select 语句也查不到该新分区下的数据；
只要是插入数据到新的分区，不管使用静态分区还是动态分区模式，都会报错；
问题分析
为确定问题，首先尝试了不同场景，发现如下现象：

当使用 insert overwrite 插入数据到分区表的已有分区时，不会报错；（不管该分区下有没有数据）；
使用 insert into 插入数据到分区表的新分区时，不会报错；
对于非分区表，insert overwrite 和 insert into 都不会报错；
当使用insert overwrite 插入数据到分区表的新分区报错后，可以使用 msck repair test0317 修复hive metastore中相关元数据，修复后 select, show partitions 等语句可以查询到分区和该分区的底层数据，没有问题；
为进一步分析问题，常看了相关日志，包括客户端日志，hiveserver2 日志和 hive metastore 日志。

org.apache.spark.sql.AnalysisException: Can not create the managed table

报错如下：

Error: org.apache.spark.sql.AnalysisException: Cannot create the managed table('`testdb`.` testtable`'). The associated location ('dbfs:/user/hive/warehouse/testdb.db/metastore_cache_ testtable) already exists.;

报错的原因：
表已经删除，但是hdfs目录仍然存在，所以导致以上的报错。
解决方法：spark增加以下配置参数：

.set("spark.sql.legacy.allowCreatingManagedTableUsingNonemptyLocation","true")

具体参考：
https://blog.csdn.net/adorechen/article/details/90722933
https://blog.csdn.net/a822631129/article/details/118933856
https://blog.csdn.net/weixin_43845733/article/details/109678670