使用Hive 分析数据

最新推荐文章于 2022-12-29 21:22:14 发布

iteye_424

最新推荐文章于 2022-12-29 21:22:14 发布

阅读量196

点赞数

分类专栏： hadoop 文章标签：大数据

本文链接：https://blog.csdn.net/iteye_424/article/details/81918896

版权

hadoop 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

当我们的数据量特别大的时候，我们可以用Hive统计数据。
Hive的好处是特别方便，编写程序的难度比较低。
输出文件作聚合的方法：
[url]http://www.chinacloud.cn/show.aspx?id=3277&cid=12[/url]
Map 端部分聚合：
并不是所有的聚合操作都需要在 Reduce 端完成，很多聚合操作都可以先在 Map 端进行部分聚合，最后在 Reduce 端得出最终结果。
基于 Hash
参数包括：
[list]
[*]hive.map.aggr = true 是否在 Map 端进行聚合，默认为 True
[*]hive.groupby.mapaggr.checkinterval = 100000 在 Map 端进行聚合操作的条目数目
[/list]
有数据倾斜的时候进行负载均衡
hive.groupby.skewindata = false
当选项设定为 true，生成的查询计划会有两个 MR Job。第一个 MR Job 中，Map 的输出结果集合会随机分布到 Reduce 中，每个 Reduce 做部分聚合操作，并输出结果，这样处理的结果是相同的 Group By Key 有可能被分发到不同的 Reduce 中，从而达到负载均衡的目的；第二个 MR Job 再根据预处理的数据结果按照 Group By Key 分布到 Reduce 中（这个过程可以保证相同的 Group By Key 被分布到同一个 Reduce 中），最后完成最终的聚合操作。
合并小文件

文件数目过多，会给 HDFS 带来压力，并且会影响处理效率，可以通过合并 Map 和 Reduce 的结果文件来消除这样的影响：

[list]
[*]hive.merge.mapfiles = true 是否和并 Map 输出文件，默认为 True
[*]hive.merge.mapredfiles = false 是否合并 Reduce 输出文件，默认为 False
[*]hive.merge.size.per.task = 256*1000*1000 合并文件的大小
[*]
[/list]