大数据学习之路36-hive的自定义函数示例,复杂数据解析

本文介绍了如何在Hive中处理复杂数据,通过创建自定义函数来实现数据的拆分和解析。当Hive内置函数无法满足需求时,文章详细讲解了编写Java类、引入Hive库、打包jar文件、添加classpath以及在Hive中创建和测试自定义函数的过程,以帮助进行更细粒度的数据分析。
摘要由CSDN通过智能技术生成

假如说我们有这样的数据:

1,zhangsan:18:beijing|male|it,2000
2,lisi:28:beijing|female|finance,4000
3,wangwu:38:shanghai|male|project,20000

假如这些数据由某个应用系统产生在hdfs的如下目录中:/log/data/2018-08-21/

需要放进hive中去做数据挖掘分析

可以先建一张外部表,跟原始数据所在的目录关联;

create external table t_user_info(id int,user_info string,salary int)
row format delimited
fields terminated by ','
location '/log/data/2018-08-21';

原来的数据不方便做细粒度的分析挖掘,所以字段需要拆分,用hive的自带的函数不方便

所以我们需要自定义一个函数来实现拆解功能。

这样的数据是很难分析的,所以我们就希望使用下面这样的函数:

select
id,my_func(info,1) as name,my_func(info,2) as age,my_func(info,3) as addr,
my_func(info
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

未来@音律

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值