Spark_Hive相关的依赖冲突,后期持续更新总结

Spark_Hive相关的依赖冲突持续更新总结

Spark-Hive_2.11依赖报错

  • 这个依赖是Spark开启支持hive SQL解析,其中2.11是Spark对应的Scala版本,如Spark2.4.7,对应的Scala版本是2.11.12;这个依赖会由于Spark内部调用的依赖guava的版本问题出现冲突;这个spark版本中的guava版本为 16.0.1 ,该版本中移除了相关方法,所以会导致报错。

  • 对于spark 2.3.2,2.4.7版本,使用的依赖如下,在本地执行测试的时候报错误:

    • Exception in thread “main” java.lang.NoSuchMethodError: com.google.common.base.Stopwatch.elapsedMillis()J

报错解决办法

  • pom如下
<dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-sql_2.11</artifactId>
      <version>2.4.7</version>
    </dependency>
  • 解决方法:排除依赖,如下
      <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-sql_2.11</artifactId>
      <version>2.4.7</version>
      <exclusions>
        <exclusion>
          <artifactId>guava</artifactId>
          <groupId>com.google.guava</groupId>
        </exclusion>
      </exclusions>
    </dependency>

  • 当依赖中同时有上述两项时,如果想要使用hive支持,那么按照问题一的解决办法,排除相关依赖后,即便有hive的相关依赖,也同样会报第二个问题的错误:

    • Exception in thread “main” java.lang.IllegalArgumentException: Unable to instantiate SparkSession with Hive support because Hive classes are not found.
  • 在pom文件中添加guava 的低版本依赖可以解决上述问题。

  • pom

  • <dependency>
         <groupId>com.google.guava</groupId>
         <artifactId>guava</artifactId>
         <version>14.0.1</version>
       </dependency>
    

在提交任务运行时,报了如下错误:

Caused by: java.lang.BootstrapMethodError: call site initialization exception

Caused by: java.lang.invoke.LambdaConversionException: Invalid receiver type interface org.apache.http.Header; not a subtype of implementation type interface org.apache.http.NameValuePair

问题原因

环境中httpclient包版本太低(其他类似报错也是对应包版本问题导致)

解决方案

  • 确定哪个包引起

  • 找到报错中的错误信息,如本例中:
    org.apache.http.Header
    org.apache.http.NameValuePair

  • 在IDEA中新建一个文件,复制上述两行代码,然后按住Ctrl,点击Header和NameValuePair跳转到他们的定义文件中。然后按住Ctrl点击定义文件上方的package,这里是http。会在IDEA左侧显示属于哪个jar包。

  • package org.apache.http;

  • IDEA里解决冲突
    如果是在IDEA中开发,可参考
    https://www.cnblogs.com/xxoome/p/13858569.html解决,但该方法只是在你本地开发环境(即IDEA中解决了冲突),当提交到集群环境中运行时,是会报一样的错。甚至在本地开发环境压根没遇到过jar包冲突,但到集群上去跑时,就会报错。原因是因为集群环境有自己jar包使用顺序。

  • spark环境中解决冲突
    当我们用spark-submit或spark-shell提交代码时,Spark application运行加载依赖有三个地方:

    • SystemClasspath – Spark安装时候提供的依赖包 【SystemClassPath】
    • Spark-submit --jars 提交的依赖包 【UserClassPath】
    • Spark-submit app.jar或者shadowJar打的jar 【UserClassPath】
    • Spark 依赖包默认优先级
  • 默认加载顺序如下:

  • SystemClasspath – Spark安装时候提供的依赖包

  • UserClassPath – Spark-submit --jars 提交的依赖包 或用户的app.jar

依赖冲突报错java.lang.NoSuchFieldError: HIVE_STATS_JDBC_TIMEOUT

Exception in thread "main" java.lang.NoSuchFieldError: HIVE_STATS_JDBC_TIMEOUT at org.apache.spark.sql.hive.HiveUtils$.hiveClientConfigurations(HiveUtils.scala:197) at org.apache.spark.sql.hive.HiveUtils$.newClientForMetadata(HiveUtils.scala:262) at org.apache.spark.sql.hive.HiveSharedState.metadataHive$lzycompute(HiveSharedState.scala:39) at org.apache.spark.sql.hive.HiveSharedState.metadataHive(HiveSharedState.scala:38) at org.apache.spark.sql.hive.HiveSharedState.externalCatalog$lzycompute(HiveSharedState.scala:46) at org.apache.spark.sql.hive.HiveSharedState.externalCatalog(HiveSharedState.scala:45) at org.apache.spark.sql.hive.HiveSessionState.catalog$lzycompute(HiveSessionState.scala:50) at org.apache.spark.sql.hive.HiveSessionState.catalog(HiveSessionState.scala:48) at org.apache.spark.sql.hive.HiveSessionState$$anon$1.<init>(HiveSessionState.scala:63) at org.apache.spark.sql.hive.HiveSessionState.analyzer$lzycompute(HiveSessionState.scala:63) at org.apache.spark.sql.hive.HiveSessionState.analyzer(HiveSessionState.scala:62) at org.apache.spark.sql.execution.QueryExecution.assertAnalyzed(QueryExecution.scala:49) at org.apache.spark.sql.Dataset$.ofRows(Dataset.scala:64) at org.apache.spark.sql.SparkSession.sql(SparkSession.scala:582) at com.dtwave.example.Test$.main(Test.scala:21) at com.dtwave.example.Test.main(Test.scala)

两个pom文件 冲突, hive经常发生这种情况, 导入不同的依赖导致冲突

 <dependency>
        <groupId>org.apache.hive</groupId>
        <artifactId>hive-jdbc</artifactId>
        <version>2.1.0</version>
    </dependency>
    <dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-hive_2.11</artifactId>
    <version>2.3.1</version>
</dependency>
  • 去掉hive-jdbc那个依赖,保留下面那个就行
  • 产生冲突,笔者希望spark-hive_2.11依赖使spark数据处理与hive数据仓库建立连接,但是编译器使用hive-jdbc使spark数据处理与hive数据仓库建立连接,由于笔者后端无需与hive数据库直接通信,因此删除hive-jdbc即可保证使用spark-hive_2.11依赖使spark数据处理与hive数据仓库建立连接,另外,笔者认为spark hive java.lang.NoSuchFieldError: HIVE_STATS_JDBC_TIMEOUT一文与Spark运行CDH6.3.2碰到的由于hive驱动引起的问题解决方法 所提到的解决办法大概是可以解决该问题,但由于笔者理解能力与编程能力都相对较差,对于上述两文的解决方案未能实现验证。

org.apache.thrift.TApplicationException: Required field ‘filesAdded‘ is unset报错

hive报错Caused by: org.apache.hadoop.hive.ql.metadata.HiveException: org.apache.thrift.TApplicationException: Required field ‘filesAdded’ is unset! Struct:InsertEventRequestData(filesAdded:null)
这个需要更改hive-site.xml里的hive.metadata.dml.events为false


问题现象
cdh6.2.1中,开启 kerberos 和 sentry 的hive 中,使用 dml 语句 insert overwrite 插入数据到分区表的新分区时,会报错。同时注意到:

查看底层 hdfs 发现对应的目录和数据都有了;
使用 show partitions xxx 查看不到对应的新分区;
使用 select 语句也查不到该新分区下的数据;
只要是插入数据到新的分区,不管使用静态分区还是动态分区模式,都会报错;
问题分析
为确定问题,首先尝试了不同场景,发现如下现象:

当使用 insert overwrite 插入数据到分区表的已有分区时,不会报错;(不管该分区下有没有数据);
使用 insert into 插入数据到分区表的新分区时,不会报错;
对于非分区表,insert overwrite 和 insert into 都不会报错;
当使用insert overwrite 插入数据到分区表的新分区报错后,可以使用 msck repair test0317 修复hive metastore中相关元数据,修复后 select, show partitions 等语句可以查询到分区和该分区的底层数据,没有问题;
为进一步分析问题,常看了相关日志,包括客户端日志,hiveserver2 日志和 hive metastore 日志。


org.apache.spark.sql.AnalysisException: Can not create the managed table

  • 报错如下:
Error: org.apache.spark.sql.AnalysisException: Cannot create the managed table('`testdb`.` testtable`'). The associated location ('dbfs:/user/hive/warehouse/testdb.db/metastore_cache_ testtable) already exists.;
  • 报错的原因:
    表已经删除,但是hdfs目录仍然存在,所以导致以上的报错。
    解决方法:spark增加以下配置参数:
.set("spark.sql.legacy.allowCreatingManagedTableUsingNonemptyLocation","true")
  • 具体参考:
    https://blog.csdn.net/adorechen/article/details/90722933
    https://blog.csdn.net/a822631129/article/details/118933856
    https://blog.csdn.net/weixin_43845733/article/details/109678670

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值