hive
shuizimuzhongling
这个作者很懒,什么都没留下…
展开
-
一种hive的模型设计思路,解决频繁增加指标字段的问题
1场景描述:有一张由多个维度(维度1、维度2、维度3、……)和多个指标(指标1、指标2、指标3、……)字段构成的表(schema.tablename1),由于业务频繁变化,经常需要增加指标,按照这种模型设计结构每次增加指标都需要修改表结构,并修改业务逻辑代码。样例: 字段名 字段描述 字段类型 dim1 维度1 string dim2 .原创 2020-12-08 20:47:47 · 487 阅读 · 0 评论 -
hive带分区的外部表改名
现有一个带分区字段的外部表schema.tablename,分区为month_id需要将其改名为schema.tablename_rename方法一:1.改名alter table schema.tablename rename to schema.tablename_rename;hadoop fs -mv /user/dw/schema.db/table_name /use...原创 2019-12-11 17:10:53 · 1876 阅读 · 1 评论 -
工作中常用的hive行列转换方法
一、列转行1. 测试数据准备:表dev.dev_three_kingdoms中存放三国武将各项属性案列存放的数据。 drop table dev.dev_three_kingdoms; CREATE TABLE IF NOT EXISTS dev.dev_three_kingdoms ( kingdom string com...原创 2019-12-06 14:32:50 · 212 阅读 · 0 评论 -
hive大表关联产生数据倾斜的处理方法
案例说明:表a为一张事实表,含多个维度字段和多个指标字段,记录数为2万,表b为一张分摊比例表,记录数为1亿5000万。刚开始直接关联时sql跑了10个小时未出结果,reduce阶段一直停留在99%的进度,最终报错退出。经核查原因,发现b表中关联字段col1,存在很多值的记录数在10万以上,怀疑在reduce阶段key值分布不均导致记录数10万以上的key集中分布到了一个节点上执行。后来经过不断...原创 2019-12-05 19:01:33 · 1722 阅读 · 0 评论 -
Hive高级聚合函数——group by扩展
目录Grouping Sets 指定多种聚合的维度、层次,对多个group by + union all进行替换、简化With Rollup 可实现从右到左递减多级的统计,显示统计某一层次结构的聚合With cube 可以实现多个任意维度的查询,会统计所选列中值的所有组合的聚合Grouping__id 按照一定规则给统计的各维度组合打标,并返回标识值...原创 2019-12-05 18:21:45 · 1134 阅读 · 0 评论