![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hive
Jhpx__
这个作者很懒,什么都没留下…
展开
-
2.1 hive函数
1.count()和sum() count(*)和count(1)的区别: 1.count(*)会进行全表扫描;不会过滤掉一整行为null的行 2.count(1) 会过滤掉一整行值为null的值 sum(0)和sum(1)的区别: sum(0):0 ...原创 2019-08-14 00:25:10 · 187 阅读 · 0 评论 -
1.hive优化
参数优化 group by优化 Map 端部分聚合: 并不是所有的聚合操作都需要在 Reduce 端完成,很多聚合操作都可以先在 Map 端进 行部分聚合,最后在 Reduce 端得出最终结果。 MapReduce 的 combiner 组件 参数包括: set hive.map.aggr = true 是否在 Map 端进行聚合,默认为 Tru...原创 2019-08-14 00:11:01 · 102 阅读 · 0 评论 -
3.拉链表 留存率 同比和环比
1.拉链表 概念:记录一条数据每天的变化信息。 案例: 创建一个主表 ---拉链表 ---创建一个主表,模拟3个字段 按照时间进行分区 --- uuid 用户唯一表示 --- version 版本 --- visit_time 访问时间 以天为记录单位 create table if not exists ods_zipper_test( uuid strin...原创 2019-08-15 15:34:46 · 641 阅读 · 0 评论