项目场景:
有一次需求需要使用到正则 去匹配一个连接字符,需要把他们分开,进行处理,发现了regexp_extract的一些使用 bug
问题描述
首先我们可以先看一下 regexp_extract的 使用用法
regexp_extract(str, regexp[, idx]) - extracts a group that matches regexp
字符串正则表达式解析函数。
参数解释:
其中:
str是被解析的字符串
regexp 是正则表达式
idx是返回结果 取表达式的哪一部分 默认值为1。
0表示把整个正则表达式对应的结果全部返回
1表示返回正则表达式中第一个() 对应的结果 以此类推
注意点:
要注意的是idx的数字不能大于表达式中()的个数。 否则报错。
下面是我的测试用例
首先,我们先看一下在正则在线工具上 我们的正则表达式匹配到的结果,这些正是我想要的 正确结果
按理说 我们把它复制到 hive的函数里面 就可以了,下面是我sql语句 但是结果却不是正确的,它只给我返回了第一个-99,其他的均不返回了 费解???
WITH r AS (
SELECT regexp_extract('1-99,2-102,3-103,4-104,8-101','(-\\d+)',0)
)
SELECT * FROM r;
原因分析:
暂不知道什么原因 求看到此文的大佬给个解释
解决方案:
提示:解决方案 我使用了regexp_replace 进行解决
WITH r AS (
SELECT regexp_replace('1-99,2-102,3-103,4-104,8-101','(\\d+-)','')
)
SELECT * FROM r;