行转列:
在我们使用hive进行数据统计分析时可能有这么一个场景:
一行数据中,一个字段中有很多和数据项,我们需要对每个数据项进行一个统计分析。
例如:一个人有很多人生的重要阶段,我们有一批人,求在某个阶段的人的总数
uid,stage
1,jiehun:shengzi:maiche
2,maiche:maifang
3,maifang:jiehun
4,dushu:maiche
5,dushu:maifang:jiehun
6,shangban:maiche
7,shangban:maifang:jiehun
需求:分析 结婚阶段的多少人,买车阶段的多少人等等,如果我们能把数据变成下列形式的话进行分组聚合就简单了,就是把stages这一列打开,对应到每个人,这样我们直接按照stage分组,聚合一下就是结果。
uid ,stage
1,jiehun
1,shengzi
1,maiche
2,maiche
2,maifang
3,maifang
3,jiehun
4,dushu
4,maiche
5,dushu
5,maifang
5,jiehun