hive 中文字符过滤_hive 中文字符匹配需求的坑

最新推荐文章于 2022-08-02 11:52:56 发布

weixin_39690105

最新推荐文章于 2022-08-02 11:52:56 发布

阅读量2.5k

点赞数 1

文章标签： hive 中文字符过滤

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39690105/article/details/112933261

版权

昨天接到一个需求，其中有部分是关于字段匹配是否是中文，如果是中文就需要去处理~

当时想到用正则表达式处理：

中文的正则表达式： [\u4e00-\u9fa5]

这种写法是： ^[\u4e00-\u9fa5]$ ^代表开头，$这种代表结尾，总的结合来说就

是开头跟结尾都是中文

举例说明：'我爱你中国' 检索里面是否全是中文，但由于hive库这个表达式有\需要转义

select '我爱你中国' rlike '^[\\u4e00-\\u9fa5]$ ' ; 执行后会返回真

select case when '我爱你中国' rlike '^[\\u4e00-\\u9fa5]$ ' then 1 else 0 end; 执行后会返回1

这是开头和结尾全都是中文的情况

如果是想找里面有中文的就好了，那就不用开头和结尾那个符号：

select 'asa我爱你中国ssad' rlike '[\\u4e00-\\u9fa5] ' ; 执行后会返回真

select case when 'sdasd我爱你中国asdsad' rlike '[\\u4e00-\\u9fa5]' then 1 else 0 end; 执行后会返回1

注意细节，记得加转义~

weixin_39690105

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
hive 中文字符过滤_hive 中文字符匹配需求的坑

昨天接到一个需求，其中有部分是关于字段匹配是否是中文，如果是中文就需要去处理~当时想到用正则表达式处理：中文的正则表达式： [\u4e00-\u9fa5]这种写法是： ^[\u4e00-\u9fa5]$ ^代表开头，$这种代表结尾，总的结合来说就是开头跟结尾都是中文举例说明：'我爱你中国' 检索里面是否全是中文，但由于hive库这个表达式有\需要转义select '我爱...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。