Hive常用系统函数-字符串函数

最新推荐文章于 2022-03-20 10:33:21 发布

nbszg

最新推荐文章于 2022-03-20 10:33:21 发布

阅读量1k

点赞数

分类专栏： Hive 文章标签： Hive 字符串字符串处理

本文链接：https://blog.csdn.net/u011517132/article/details/103473504

版权

Hive 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

关于Hive常用的字符串处理函数：

函数	参数格式	解释
ascii	ascii(string str)	返回传入字符串的第一个字符的ASCII编码
base64	base64(binary bin)	将传入的二进制参数转换为base 64 字符串
character_length	character_length(string str)	返回字符串长度（字符串需为UTF8编码）
chr	chr(bigint\|double A)	将传入数字当做ASCII编码，并转换为对应字符，若传入参数超过256，则转换为chr(A % 256)
concat	concat(string\|binary A, string\|binary B…)	将传入的字符串A,B合并为新的字符串，concat(‘foo’, ‘bar’)结果为’foobar’
context_ngrams	context_ngrams(array<array>, array, int K, int pf)	从一组标记化的句子中返回前k个文本。例如select context_ngrams(sentences(‘hello word!hello hive,hi hive,hello hive’),array(‘hello’,null),4) from A，会返回[{“ngram”:[“hive”],“estfrequency”:7141046.0},{“ngram”:[“word”],“estfrequency”:3570523.0}]，即最经常在"hello"后出现的单词，并统计其频次,有统计聚合作用
concat_ws	concat_ws(string SEP, string A, string B…)或 concat_ws(string SEP, array<string>)	与concat作用类似，但是支持自定义的分隔符SEP
decode	decode(binary bin, string charset)	使用charset方式，将二进制bin解码为字符串。支持的字符集有：‘US-ASCII’, ‘ISO-8859-1’, ‘UTF-8’, ‘UTF-16BE’, ‘UTF-16LE’, ‘UTF-16’
elt	elt(N int,str1 string,str2 string,str3 string,…)	返回给定字符串集中的第N个，若不存在则返回null。例如elt(2,‘hello’,‘world’) 返回’world’
encode	encode(string src, string charset)	使用charset方式，将字符串src编码为二进制bin。支持的字符集有：‘US-ASCII’, ‘ISO-8859-1’, ‘UTF-8’, ‘UTF-16BE’, ‘UTF-16LE’, ‘UTF-16’
field	field(val T,val1 T,val2 T,val3 T,…)	返回val在val1,val2…的位置。若不存在则返回0。例如field(‘world’,‘say’,‘hello’,‘world’)，返回值为3
find_in_set	find_in_set(string str, string strList)	返回str在strList中的位置。若不存在或str中存在","，则返回0
find_in_set	find_in_set(string str, string strList)	返回str在strList中的位置。若不存在或str中存在","，则返回0。若str为null，则返回null
format_number	format_number(number x, int d)	将数字精确到d位小数，例如format_number(5.123456, 4)，返回值为5.1235
get_json_object	get_json_object(string json_string, string path)	根据指定的path路径从json字符串中提取json对象，并返回提取的json对象的json字符串。如果输入的json字符串无效，则返回null。注意：json路径只能包含字符[0-9a-z_u]，即没有大写或特殊字符。此外，键*不能以数字开头
in_file	in_file(string str, string filename)	如果str以整行的方式出现在filename中，则返回True。必须存在filename文件，否则会报错
instr	instr(string str, string substr)	返回str中第一个substr的位置。如果其中str为null，则返回null；如果在str中找不到substr，则返回0
length	length(string A)	返回字符串A的长度
locate	locate(string substr, string str, int pos)	返回substr在str的pos位置后，第一次出现的位置，pos非必传。例如locate(‘a’, ‘abcabc’)，返回1；locate(‘a’, ‘abcabc’,1)，返回1；locate(‘a’, ‘abcabc’,2)，返回4
lower	lower(string A)	返回字符串A的小写形式
lpad	lpad(string str, int len, string pad)	将str截取长度len位，若str长度不足len则，左侧用pad补充。例如lpad(‘abcdef’, 5, ‘a’)返回’abcde’；lpad(‘abc’, 5, ‘a’)返回’aaabc’
ltrim	ltrim(string A)	删除字符串A左边的空格
ngrams	ngrams(array<array>, int N, int K, int pf)	返回出现次数排在前K的子序列,N表示子序列的长度，例如ngrams(sentences(lower(tweet)), 2, 100 [, 1000]) FROM twitter
octet_length	octet_length(string str)	返回以UTF-8编码保存字符串str所需的八位字节数
parse_url	parse_url(string urlString, string partToExtract [, string keyToExtract])	解析url，并返回需要抽取的部分，（可能抽取的部分partToExtract 为HOST, PATH, QUERY, REF, PROTOCOL, AUTHORITY, FILE）。例如：parse_url(‘http://facebook.com/path1/p.php?k1=v1&k2=v2#Ref1’, ‘HOST’) 返回 ‘facebook.com’
printf	printf(String format, Obj… args)	按照指定的format进行输出。例如printf(“Hello World %d %s”, 100, “days”)，返回值为"Hello World 100 days”
regexp_extract	regexp_extract(string subject, string pattern, int index)	返回字符串subject与正则表达式pattern匹配后的index部分。例如regexp_extract(‘100-300’, ‘(d+)-(d+)’, 2) 的返回值为300
regexp_replace	regexp_replace(string INITIAL_STRING, string PATTERN, string REPLACEMENT)	将字符串subject与正则表达式pattern匹配上部分用REPLACEMENT进行替换并返回。例如regexp_replace(‘100-200’, ‘(d+)’, ‘num’)返回值为‘num-num’
repeat	repeat(string str, int n)	将字符串str重复n次
replace	replace(string A, string OLD, string NEW)	将字符串str中的OLD子串替换为NEW
reverse	reverse(string A)	对字符串A进行翻转
rpad	rpad(string str, int len, string pad)	与lpad对应，将str截取长度len位，若str长度不足len则，右用pad补充。例如rpad(‘abcdef’, 5, ‘a’)返回’abcde’；rpad(‘abc’, 5, ‘a’)返回’abcaa’
rtrim	rtrim(string A)	与ltrim对应，删除字符串A右边的空格
sentences	sentences(string str, string lang, string locale)	将字符串str按照句子划分成单词。其中每个句子为一个数组，句子中单词为数组中元素。lang和locale为可选参数。其中lang为语言选项(如：'en’代表英文)，locale代表地区。例子：sentences(‘Hello there! How are you?’) 返回 ( (“Hello”, “there”), (“How”, “are”, “you”) )
space	space(int n)	返回n个空格的字符串
split	split(string str, string pat)	按照正则表达式pat拆分字符串str。例如：split(‘a,b,c,d’,’,’)返回[“a”,“b”,“c”,“d”]
str_to_map	str_to_map(text, delimiter1, delimiter2)	将text分割为数个键值对。其中delimiter1和delimiter2为可选参数。delimiter1(默认为’:’)代表键k与值v的分隔符。delimiter2(默认为’,’)代表键值对k-v之间的分隔符。例如str_to_map({“column1:1,column2:2”)返回值为{“column1”:“1”,“column2”:“2”}
substr	substr(string	binary A, int start, int len)
substr	substr(string	binary A, int start, int len)
substring_index	substring_index(string A, string delim, int count)	已delim为分隔符，返回delim将A分割后的前count部分。若count为负，则返回分割的最后一部分。例如：substring_index(‘www.apache.org’, ‘.’, 2) 返回 ‘www.apache’
translate	translate(string\|char\|varchar input, string\|char\|varchar from, string\|char\|varchar to)	将input字符串中出现在from中的每个字符替换为to中的相应字符以后的字符串。若from比to字符串长，那么在from中比to中多出的字符将会被删除。与PostgreSQL中对应函数等价。例如translate(‘abcdefga’,‘abc’,‘wo’)返回’wodefgw’
trim	trim(string A)	返回出现在字符串A两端的空格。例如trim(’ foo bar ‘)返回’foo bar’
unbase64	unbase64(string str)	将64位的字符串转换二进制值
upper	upper(string A)	与lower对应，返回字符串A的大写形式
initcap	initcap(string A)	返回字符串，每个单词的第一个字母为大写，所有其他字母为小写。单词由空格分隔
levenshtein	levenshtein(string A, string B)	返回两个字符串之间的Levenshtein距离。例如 levenshtein(‘kitten’, ‘sitting’)返回值为3。(Levenshtein 距离，又称编辑距离，指的是两个字符串之间，由一个转换成另一个所需的最少编辑操作次数。编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符)
soundex	soundex(string A)	返回字符串的soundex代码。例如：soundex(‘Miller’)返回M460

nbszg

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hive常用系统函数-字符串函数

关于Hive常用的字符串处理函数：函数参数格式内容asciiascii(string str)返回传入字符串的第一个字符的ASCII编码base64base64(binary bin)将传入的二进制参数转换为base 64 字符串character_lengthcharacter_length(string str)返回字符串长度（字符串需为UTF8...
复制链接

扫一扫