spark踩坑记

likemebee

已于 2022-08-23 11:01:41 修改

阅读量1.3k

点赞数

文章标签： spark 大数据 hive

于 2022-08-23 10:59:04 首次发布

本文链接：https://blog.csdn.net/likemebee/article/details/126480327

版权

1.由于spark存在一个机制，为了提高性能，会缓存parquet的元数据信息。当通过hive或其他方式更新了parquet表时，缓存的元数据信息未更新，导致SparkSQL查询不到新插入的数据。解决措施：在使用sparkSQL查询之前，需执行refresh操作更新元数据信息。

spark.sql("REFRESH TABLE tableName")
或
spark.Catalog.refreshTable("tableName")

2.对于部分orc格式的hive表，会有spark sql读取表数据为空的情况。排查过程中发现是因为使用了tez作为hive的执行引擎，然后执行insert select union all 时，对应的hdfs数据路径，不是直接存放数据文件，而是先有子目录HIVE_UNION_SUBDIR_x，子目录下再存放数据文件。解决方案：

查看spark官方文档，找到一个参数

设置参数：spark.sql.hive.convertMetastoreOrc=false

问题得到解决

代码设置参数：spark.sql("set spark.sql.hive.convertMetastoreOrc=false")
            spark.sql("set spark.sql.hive.convertMetastoreParquet=false")

likemebee

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
spark踩坑记

排查过程中发现是因为使用了tez作为hive的执行引擎，然后执行insert select union all 时，对应的hdfs数据路径，不是直接存放数据文件，而是先有子目录HIVE_UNION_SUBDIR_x，子目录下再存放数据文件。1.由于spark存在一个机制，为了提高性能，会缓存parquet的元数据信息。当通过hive或其他方式更新了parquet表时，缓存的元数据信息未更新，导致SparkSQL查询不到新插入的数据。
复制链接

扫一扫