hive
文章平均质量分 75
stable_阿甘
用心学习,用心做事
展开
-
hive任务优化经验总结
本文中介绍了工作中遇到的hive任务优化的方法原创 2023-11-23 09:47:17 · 953 阅读 · 0 评论 -
hive cbo优化引起的bug
有一个任务,在混部集群默认开启,导致任务reduce个数太小,只启了2个reducetask,而maptask中读取的数据又很大,使得大量数据都写到这2个reduce task中,任务最终失败,在关闭这个参数后,可以启动1100个reducetask。对比执行计划,在开启这个参数后,hive 认为只会读取50000多行数据,而实际上是几十亿。hive.stats.fetch.column.stats导致reduce个数划分太小。原创 2023-11-19 12:08:55 · 74 阅读 · 0 评论 -
Optimizing Joins in a Map-Reduce Environment
本文介绍了基于多路join的优化原创 2023-11-19 11:46:41 · 55 阅读 · 0 评论 -
hive写动态分区加distribute by
在程序的最后,按照动态分区的字段在程序最后加一个distribute by,在本例中,就是加distribute by type, salt,此时就可以保证相同的type 和 salt的数据,会在同一个task中执行,最后输出的文件个数也是在可接受范围内的,输出文件个数为 type * salt * ceil(file_size / 256m),在本例中,因为每个文件都小于256m,所以生成的文件个数就是4 * 512 * 1 = 2048。原创 2023-08-29 16:18:43 · 190 阅读 · 0 评论 -
数据倾斜总结
本文介绍了hive数据倾斜的常见case及优化方案原创 2023-07-23 16:01:12 · 57 阅读 · 0 评论 -
hive在IDEA中debug
本文介绍了如何在本地利用idea做hive的debug原创 2023-01-15 09:23:02 · 379 阅读 · 0 评论 -
向量化执行
本文介绍了CPU的向量化执行的优点,以及在Hive中的应用原创 2023-01-15 09:14:45 · 277 阅读 · 0 评论 -
replicate join的实现
本文介绍了基于复制算法的Join优化的实现原创 2023-01-15 08:33:05 · 138 阅读 · 0 评论 -
Cost-based optimization in Hive
本文介绍了Hive基于CBO的优化原创 2023-01-15 08:23:39 · 191 阅读 · 0 评论 -
hive参数设置
一、内存设置set mapreduce.map.memory.mb=4096;// 每个Map Task需要的内存量set mapreduce.map.java.opts=-Xmx3276M; // 每个Map Task 的JVM最大使用内存set mapreduce.reduce.memory.mb=4096; // 每个Reduce Task需要的内存量set mapreduce.reduce.java.opts=-Xmx3276M; // 每个Reduce Task 的JVM最大使用内存se原创 2021-07-16 22:53:27 · 5059 阅读 · 4 评论 -
hive用temporary table替换with
一、用temporary table替换with的效果 用with从一个宽表中读取了2个字段生成tmb_tb,在后面的查询中两次用到了tmb_tb,执行用时70分钟; 用 temporary table 替代with后(需要把临时表保存到内存中),相同的查询用时50分钟二、with的缺点 with的内容并不会缓存,每用一次就会执行一次。我原本想实现的目标是通过with从宽表中取2个字段生成一个tmp_tb,后面之后直接从tmp_tb中读取这两个字段,但是实际的情况是每从tmp_tb中抽一次数,原创 2021-07-16 22:48:08 · 815 阅读 · 0 评论 -
hive sql把日期范围转成具体日期
一、背景使用sql将日期范围转成具体的日期,如 (2021-06-01, 2021-07-01) 转成2021-06-01, 2021-06-02, 2021-06-03,…, 2021-07-01.二、方案select tmp.start_date, val, pos, date_add(start_date, pos) from( select '2021-07-01' as start_date, '2021-07-3原创 2021-07-09 21:55:16 · 658 阅读 · 4 评论 -
hive metastore 和 hiveServer2 遇到的问题
hive metastroe 的问题这个问题最早的时候是在启动 hive 的时候遇到的,当时报错是:我把 hive-site.xml 中的这部分配置注释掉之后就不再报错了,但是会在启动 hive 的时候有警告,当时把这个问题直接忽略过去了,因为已经可以 hive 已经可以正常运行了后来在尝试 spark on hive 的时候,报了一个这个错误:通过查资料,发现是需要启动 service metastore,看到 metastore 就很熟悉,上面遇到过,于是我把上面注释掉的代码解除注释,并在 .原创 2020-07-03 18:34:39 · 2169 阅读 · 0 评论