1、只获取文本中的字母,汉字和数字,剔除标点和特殊符号
> select regexp_replace('assseewfew@@@###$%%.....~~~京津冀123','[[^0-9a-zA-Z\\u4e00-\\u9fa5]]','')
> assseewfew京津冀123
2、获取字符串a首次在字符串b中出现的位置
> select locate('123','124123')
> 4
> select sort_array(
collect_set(
concat_ws(':',cast(sn as string)

这篇博客主要介绍了在HIVE中处理字符串的技巧,包括筛选字母、汉字和数字,查找字符串首次出现位置,比较字符串相似度,以及解析JSON数据的方法。
最低0.47元/天 解锁文章
3万+

被折叠的 条评论
为什么被折叠?



