tez在join操作中遇到数据丢失问题（牵涉hive优化）

最新推荐文章于 2025-05-01 16:14:31 发布

威尼斯的星期天

最新推荐文章于 2025-05-01 16:14:31 发布

阅读量5.5k

点赞数 8

CC 4.0 BY-SA版权

分类专栏： hive tez 大数据

本文链接：https://blog.csdn.net/qq_37714755/article/details/105438009

前言

相信很多人遇到过，将tez集成到hive中时，进行小表join操作，比如3张表进行join，发现最后结果和预期比较，少了一些。然后对每个子查询进行分析，发现往往每个子查询又没有任何数据丢失！而是到了join阶段，数据才出现部分丢失。下面我们对此进行展开叙述。

问题排查

首先，为了排查到底是哪里的情况。我们知道，tez对DAG运算做了很多优化，和传统MR运行有区别。那么到底如何查呢。

首先为了排查是否是tez引擎引起的，所以我们把引擎的配置改回mr。发现有时候确实能够避免数据丢失，有时候又不能！那么肯定不完全是tez的问题了。

这里不得不说下hive一些优化参数！

hive优化的相关参数

-- 是否自动开启mapjoin,默认为true
set hive.auto.convert.join=true;

-- mapjoin小表和大表的阈值设置
set hive.mapjoin.smalltable.filesize=25000000;

set hive.auto.convert

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

威尼斯的星期天

关注关注

8
点赞
踩
22

收藏

觉得还不错? 一键收藏
17
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Hive3 left join 数据缺失问题

weixin_41367158的博客

02-29

493

如果依然开启mapjoin将smalltable.filesize与 noconditionaltask.size调到等大和足够大。hive3默认建表bucketing_version为2，通过上述sql可以查询出hive2建的表，没有bucketing_version，将这些表进行重建并重新导数据.关闭mapjoin 设置参数： set hive.auto.convert.join=false;上述sql使用tez引擎left join 出t2表数据为空。hive默认开启了mapjoin，两种解决方式。

Hive面试题汇总

weixin_41367158的博客

03-08

624

Hive 在加载数据过程中不会对数据进行任何的修改，只是将数据移动到HDFS 中Hive 设定的目录下，因此，Hive 不支持对数据的改写和添加，所有的数据都是在加载的时候确定的。当按照类型进行group by的时候，会将相同的group by字段的reduce任务需要的数据拉取到同一个节点进行聚合，而当其中每一组的数据量过大时，会出现其他组的计算已经完成而这个reduce还没有计算完成，其他的节点一直等待这个节点的任务执行完成，所以会一直看到map 100% reduce99%的情况；

17 条评论您还未登录，请先登录后发表或查看评论

＜记＞一次Hive tez丢数据问题

weixin_44560999的博客

03-16

745

<记>一次Hive tez丢数据问题使用tez引擎 union all 数据丢失，在做大表数据2QW 关联小表数据是几百W 会造成数据丢失原因：暂未找到临时方案：先将小表数据优先关联好后，再去跟大表关联

【Hive入门】Hive性能调优之资源配置：深入解析执行引擎参数调优

最新发布

IT成长日记的博客

05-01

1285

合理的资源配置是Hive性能调优的基础，本文将深入探讨如何通过调整MapReduce、Tez和Spark三种执行引擎的内存与并发参数来优化Hive查询性能。

join丢失数据_15、Hive数据倾斜与解决方案

weixin_29643235的博客

02-03

470

数据倾斜1、什么是数据倾斜由于数据分布不均匀，造成数据大量的集中到一点，造成数据热点2、数据倾斜的现象在执行任务的时候，任务进度长时间维持在99%左右，查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成。因为其处理的数据量和其他reduce差异过大。单一reduce的记录数与平均记录数差异过大，通常可能达到3倍甚至更多。最长时长远大于平均时长。3、数据倾斜的情况4、数据倾斜的...

hive表更改元数据之后未选择级联，在查询时spark引擎和hive/tez引擎查询结果不一致问题

a6822342的博客

05-11

1379

最近在工作中遇到一个问题：他人修改了数据表之后（加了两个字段，但是没有选择级联更改），用spark引擎查是可以查到数据，用tez/hive来查新增的两个字段的值是null值。最后发现是分区的元数据和表的元数据不一致导致的，分区的元数据少了新增的两个字段，所以查出来数据是null。下面是两段代码，分别查表的元数据信息和分区的元数据信息： #查表的元数据信息 desc table_name; #查对应分区的元数据信息 desc table_name partition(分区字段='分区值') 对比

离线数据分析项目中集成了hive的tez运行引擎出现的问题

serenity_anry的博客

05-17

629

原因：出现这种情况，是属于启动hive，会运行Tez，这时候检查到用过多内存而被NodeManager杀死进程的问题。解决方案：方案一：或者是关掉虚拟内存检查。我们选这个，修改yarn-site.xml yarn.nodemanager.vmem-check-enabled false 方案二：mapred-site.xml中设置Map和Reduce任务的内存配置如下：(value中...

tez中的brocast join

刘光华的专栏

09-14

2455

最近在使用tez的过程中发现，tez中提供了类似于hive on mr中的mapjoin的操作，叫做brocast join。对于小表join大表有很好的效果。看例子： set hive.execution.engine=tez; set hive.convert.join.bucket.mapjoin.tez=true; set hive.auto.conv

数据分析大数据面试题大杂烩02

GavinKai

03-09

2595

Map端会处理输入数据并产生中间结果,这个中间结果会写到本地磁盘,每个Map的输出会先写到内存缓冲区中,当写入的数据达到设定的阈值时,系统将会启动一个线程将缓冲区的数据写到磁盘,这个过程叫做spill(spill写入之前,会先进行二次排序,首先根据数据所属的partition进行排序,然后每个partition中的数据再按key来排序 . partition的目是将记录划分到不同的Reducer上去,以期望能够达到负载均衡,以后的Reducer就会根据partition来读取自己对应的数据 . 接着运行co

字节抖音大数据开发校招面经总结

Jiangzhiqi4551的博客

11-04

2681

翻了一些牛客上的字节面经，对常见面试题做了下总结~Spark部分1、Spark中Stage、Executor、Task都是干嘛的？2、Spark 数据倾斜3、spark为什么比mr快？4、Spark的stage的划分是怎么划分的？5、介绍一下 Spark RDD、DataFrame、DataSet6、Spark的窄依赖和宽依赖7、DAG Scheduler作用8、Spark中有哪些算子会进行shuffle，有哪些不会进行shuffle9、union可以形成宽依赖吗？10、Spark 作业调度11、Spark

full join 的坑

u013009809的专栏

06-05

1298

发现full join 导致数据发散的问题 select * from temp.test_student name age classid ---- --- ------- a 2 1 b 2 2 c 2 1 select * from temp.test_class name age classid ---- --- ------- c 2 1 ...

Hive on tez 运行报错集锦

cuichunchi的博客

10-26

2177

执行 hive：直接报java.lang.ClassNotFoundException: org.apache.hadoop.mapred.MRVersion CDH集群安装组件都ok，在Hue界面中使用Hive的HQL是都是ok的但是直接在liunx中，打开客户端命令：执行 hive：直接报java.lang.ClassNotFoundException: org.apache.hadoop.mapred.MRVersion 解决方案：因为CDH的hive-site.xml配置文件中没

hadoop MultipleOutputs 输出丢数据问题

风远陌

01-28

522

问题：需求是MapReduce一个文件输入后，转化成三个输出文件。结果总是丢文件，又是输出三个，有时输出四个，很鸡鸡难受。解决方案：文档要看全，兄弟 ...

ods漏数，或者dwd join过来join过去丢了怎么办

山水青一人尤

12-11

543

在数据仓库中，遇到ODS（操作数据存储）层数据漏数或者在DWD（数据仓库细节层）中由于多次JOIN操作导致数据丢失的问题时，需要系统地分析和解决。

单机和分布式下的关联算法（Hash Join,SNLJ,INLJ,BKA,Merge Join）

isea_you's blog

04-07

1919

单机和分布式下的关联算法（Hash Join,SNLJ,INLJ,BKA,Merge Join）

mr和tez跑出来的数据不一样，mr丢数据？

Lyx_h的博客

03-20

2503

1.问题描述在hive中分别使用tez和mr两种模式进行计算(hql中包含union all)，最终得到的数据结果却不相同, mr在对表进行读取时，无法获取到数据。 2.查找原因经过排查发现，读取表的输出目录，在分区目录下发现了两个子目录 /user/hive/warehouse/bigda.db/tab/1 /user/hive/warehouse/bigda.db/tab/2 查...

hive on tez学习之官网和源码

cclovezbf的博客

09-14

1199

简单来说 hive是根本，执行引擎目前用过spark 和mr，现在是tez。一般来说mr 有点拉跨主要基于磁盘，spark是基于内存计算，通过spark划分宽窄依赖并且形成dag图，然后执行。其实tez和spark本身是差不多的只不过可能底层思想不一样，现在来学习。

Hive 优化参数