hive
文章平均质量分 89
hive
chenshitong96
这个作者很懒,什么都没留下…
展开
-
hive 函数之二 窗口函数 与 分析函数
hive 函数之二 窗口函数 与 分析函数①排序函数1. order by -- 全局排序 所有map端数据,只在一个reduce端进行,全局排序 2. sort by -- 对每一个reduce中进行局部排序 因此在使用sort by之前,需要先设置Reduce的数量>1(set mapreduce.job.reduces=n;)才会做局部排序 distribute by 是控制 map 的输出在reduer 中是如何划分的。原创 2021-04-09 15:20:10 · 529 阅读 · 0 评论 -
Yarn container 资源分配 与task和Executor关系
Yarn container 资源分配 与task和Executor关系问题: spark on yarn 或者 mapreduce on yarn 中 container 的资源 与 maptask/reducetask 或 Executor的资源分配关系?Yarn container 的个数, 内存与CPU控制一. YARN 机器 – 预留内存总共保留的内存=系统内存+HBASE内存。每台机子内存系统需要的内存HBase需要的内存4GB1GB1GB8G原创 2021-03-26 13:18:40 · 2820 阅读 · 3 评论 -
Hive数据倾斜以及资源分配调试
Hive数据倾斜以及资源分配① Group By 中的计算均衡优化1. map端聚合原理combiner 操作 – 目的: 减少shuffle的数据量[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KqUodkBg-1616497077437)(…/图片/hive图片/skew_map_agg.png)]场景groupby_key 在map端数据有大量重复的时候, 就需要开启。 如果groupby_key 是用户id, 几乎不会有重复的时候,就不原创 2021-03-23 19:44:55 · 836 阅读 · 0 评论 -
Hive中map与reduce数量控制
1. 控制hive任务中的map数和reduce数map数量1.多少map数量合适:遵循两个原则: 使大数据量利用合适的map数;使单个map任务处理合适的数据量;2.主要决定因素:hdfs block-- input的文件总个数,input的文件大小,集群设置的文件块大小(默认128M)InputFormat在默认情况下会根据hadoop集群的DFS块大小进行分 片,每一个分片会由一个map任务来进行处理,当然用户还是可以通过参数mapred.min.split.size参数在作业提交客户端原创 2021-03-17 15:47:00 · 1342 阅读 · 0 评论