Hive:字符串函数

 

 

函数名称:concat

用途:连接字符串

格式:string concat(string,string)

函数名称:get_json_object

用途:根据指定的json路径从json字符串中提取json对象,并返回提取的json对象的json字符串。如果输入json字符串无效,它将返回null。注意:json路径只能有字符[0-9a-z_],即,没有大写或特殊字符。同样,键*不能以数字开头。*这是由于对Hive列名的限制。

接口格式:string get_json_object(string,string)

参数说明:1. get_json_object('{"id":123,"name":"zhangsan"}','$.name')='zhangsan' 2. get_json_object('{"id":123,"name":"zhangsan","info":{"add":"beijing","tel":"01088876543"}}','$.info')={"add":"beijing","tel":"01088876543"} 3. select get_json_object('{"id":123,"name":"zhangsan","info":{"add":"beijing","tel":"01088876543"}}','$.info.tel')=01088876543 4. get_json_object('{"id":123,"name":"zhangsan","info":{"add":"beijing","tel":["01088876543","15010254587"]}}','$.info.tel\[*]')=["01088876543","15010254587"] 其中第二个参数path使用格式: $ : 表示根目录 . : 表示Json下级 [] : 表示第几个元素

函数名称:instr

用途:返回子字符串在字符串中出现的位置。如果找不到返回0。第一个位置为1

格式:bigint instr(string,string,bigint,bigint)

函数名称:default.md5

用途:计算输入字符串value的md5值

格式:string default.md5(string)

函数名称:parse_url

用途:解析url,返回指定的部分。partToExtract参数可以是HOST、PATH、QUERY、REF、PROTOCOL、 AUTHORITY、 FILE、 USERINFO。

格式:string parse_url(string,string,string)

参数说明:1. parse_url('https://blog.csdn.net/chybin500/article/details/80587985','HOST')='blog.csdn.net' 2. parse_url('https://blog.csdn.net/chybin500/article/details/80587985','PATH')='/chybin500/article/details/80587985' 3. parse_url('https://blog.csdn.net/chybin500/article/details/80587985?v=1','QUERY')='v=1' 4. parse_url('https://blog.csdn.net/chybin500/article/details/80587985?v=1','PROTOCOL')='https' 5. parse_url('https://blog.csdn.net/chybin500/article/details/80587985?v=1','QUERY','v')='1'

函数名称:regexp_extract

用途:根据正则表达式提取第index个部分的字符串。index参数可以参考JAVA文档

格式:string regexp_extract(string,string,bigint)

函数名称:regexp_replace

用途:正则替换字符串

格式:string regexp_replace(string,string,string)

函数名称:substr

用途:截取字符串

格式:string substr(string,bigint,bigint) string substr(string,bigint)

函数名称:trim

用途:将输入字符串str去除左右空格

接口格式:string trim(string)

函数名称:concat_ws

用途:和concat函数相似,但是可以指定各个字符串的分隔符。

格式:string concat_ws(string,string,...)

参数说明:concat_ws('_','123','abc')=123_abc

函数名称:encode

用途:使用指定的编码方式(‘US-ASCII’, ‘ISO-8859-1’, ‘UTF-8’, ‘UTF-16BE’, ‘UTF-16LE’, ‘UTF-16’)将字符串编码为二进制,如果输入参数为Null,那么返回也是Null。

格式:binary encode(string,string)

函数名称:decode

用途:使用指定的编码方式(‘US-ASCII’, ‘ISO-8859-1’, ‘UTF-8’, ‘UTF-16BE’, ‘UTF-16LE’, ‘UTF-16’)将二进制解码为字符串,如果输入参数为Null,那么返回也是Null。

格式:string decode(binary,string)

函数名称:find_in_set

用途:返回第一次出现字符串str的位置,strList是逗号隔开的字符串。如果没有找到,就返回0。如果str或者strList为Null,那么返回null。

格式:string find_in_set(string,string)

函数名称:format_number

创建人:System

用途:将一个数字以小数点后多少位方式显示。

格式:number format_number(number,int)

参数说明:1. format_number(1.2,3)=1.200 2. format_number(1.9,0)=2

函数名称:repeat

用途:将字符串重复n次

格式:string repeat(string,int)

函数名称:split

用途:根据指定字符分割字符串

格式:array split(string,string)

函数名称:sys_date_format

用途:日期字符串格式化

格式:string sys_date_format(string,string,string)

参数说明:用法:sys_date_format(${V_DATE},yyyy-MM-dd HH:mm, yyyyMMdd) -- 格式化${V_DATE}变量的值,结果为20191129 sys_date_format(2019-01-01,yyyy-MM-dd, yyyyMMdd) -- 格式化2019-01-01的值,结果为20190101

 

 

 

 

 

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值