假如说我们有这样的数据:
1,zhangsan:18:beijing|male|it,2000
2,lisi:28:beijing|female|finance,4000
3,wangwu:38:shanghai|male|project,20000
假如这些数据由某个应用系统产生在hdfs的如下目录中:/log/data/2018-08-21/
需要放进hive中去做数据挖掘分析
可以先建一张外部表,跟原始数据所在的目录关联;
create external table t_user_info(id int,user_info string,salary int)
row format delimited
fields terminated by ','
location '/log/data/2018-08-21';
原来的数据不方便做细粒度的分析挖掘,所以字段需要拆分,用hive的自带的函数不方便
所以我们需要自定义一个函数来实现拆解功能。
这样的数据是很难分析的,所以我们就希望使用下面这样的函数:
select
id,my_func(info,1) as name,my_func(info,2) as age,my_func(info,3) as addr,
my_func(info
本文介绍了如何在Hive中处理复杂数据,通过创建自定义函数来实现数据的拆分和解析。当Hive内置函数无法满足需求时,文章详细讲解了编写Java类、引入Hive库、打包jar文件、添加classpath以及在Hive中创建和测试自定义函数的过程,以帮助进行更细粒度的数据分析。
订阅专栏 解锁全文
409

被折叠的 条评论
为什么被折叠?



