hive:函数:size(数组字段)获取array长度和 length(字段)获取字符串长度

本文介绍如何使用SQL进行字符串长度获取、字符串转数组及数组长度计算等操作,通过具体实例展示了如何利用collect_list和size函数处理数据,适用于数据分析和数据工程师进行数据处理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

获取字符串长度:length(字段)

字符串转数组:collect_list 列转行可得到数据,或split()某个字段得到数组

获取数组长度:size(数组字段)

参考sql: 

set edate=2019-07-21
SET company=***;
SET recomrecords=ods.ods_${hiveconf:company_RecomRecords;
SET employees=ods.ods_${hiveconf:company}_base_employees;
SET branchs=ods.ods_${hiveconf:company}_base_branchs;
SET regions=ods.ods_${hiveconf:company}_base_regions;

SELECT
    EmployeeNo,
    collect_list(FillinDate)                                   FillinDate,
    collect_list(FillinDate)[size(collect_list(FillinDate))-1] FillinDate,//取数组最后一个值
    size(collect_list(FillinDate))
FROM
    ${hiveconf:recomrecords}
WHERE
    EmployeeNo='401800106'
AND FillinDate>='2019-07-15'
AND FillinDate<='2019-07-21'
AND PhaseId=10
AND IsApprove=1
AND IsCancel IS NULL
GROUP BY
    EmployeeNo
ORDER BY
    fillindate DESC

 

### Hive 自定义函数 UDF 处理集合数据 在 Hive 中,可以通过自定义函数(User Defined Function, UDF)来扩展其功能以满足特定的数据处理需求。当涉及到集合类型的字段时,比如数组ARRAY)、映射(MAP),或者复杂结构化 JSON 数据中的嵌套列表,可以开发专门的 UDF 来实现这些复杂的转换逻辑。 #### 1. 创建支持集合类型处理的 UDF 示例 假设有一个场景:表 `example_table` 的某一列存储了一个字符串形式的数组(JSON 数组)。目标是从该数组中提取指定索引位置的元素并返回结果。 以下是具体实现过程: ##### (1)准备环境依赖项 确保已安装 JDK Maven 工具链用于构建 Java 项目,并配置好 Hadoop/Hive 环境变量以便编译后的 JAR 文件能够被加载到 Hive 客户端中[^4]。 ##### (2)编写 UDF 类代码 下面是一个简单的例子展示如何通过 Apache Commons Lang 库解析 JSON 字符串获取其中某个键对应的值作为输出结果之一: ```java import org.apache.hadoop.hive.ql.exec.UDF; import org.json.JSONArray; public class GetElementFromJSONArray extends UDF { public String evaluate(String jsonArrayStr, int index) { try { JSONArray array = new JSONArray(jsonArrayStr); if (index >=0 && index <array.length()) { return array.getString(index); } else {return null;} } catch(Exception e){ System.out.println("Error parsing json:"+e.getMessage()); return null; } } } ``` 此方法接受两个参数——第一个是要分析的目标 JSON 数组;第二个是指定要检索的位置编号。如果提供了有效的输入,则它会尝试访问给定下标的条目并将相应的字符串表示形式返回出去;否则的话就给出 NULL 值[^1]。 ##### (3)打包与部署 完成编码之后将其构建成标准格式(.jar),再上传至 Linux 主机上的适当目录里去。接着利用 ADD JAR 指令引入外部资源文件以及 CREATE TEMPORARY FUNCTION 关联新命名空间下的类对象实例: ```sql ADD JAR /path/to/your/custom_udfs.jar; CREATE TEMPORARY FUNCTION getElementFromArray AS 'com.example.GetElementFromJSONArray'; ``` 此时即可调用刚刚注册成功的临时函数来进行查询操作啦! #### 2. 查询示例 假设有如下记录存在于数据库当中: | id | name | hobbies | |----|-----------|-----------------| | 1 | Alice | ["reading","swimming"] | | 2 | Bob | ["basketball"] | 执行 SQL 如下所示可分别取得每个人的第一兴趣爱好是什么样子滴呢? ```sql SELECT id,name,getelementfromarray(hobbies,0) FROM example_table; -- Output: -- 1,Alice,"reading" -- 2,Bob,"basketball" ``` 以上就是关于怎样运用 Hive 自定义函数针对集合型态资料加以处置的一个基础范例介绍完毕咯~ 下面附上几个延伸思考题目供您参考哦!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值