hive regexp_extract

最新推荐文章于 2024-10-04 20:22:00 发布

SeaSky_Steven

最新推荐文章于 2024-10-04 20:22:00 发布

阅读量477

点赞数

分类专栏： hive 文章标签： hive regexp_extract

原文链接：https://www.cnblogs.com/skyEva/p/5175377.html

版权

hive 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

1。regexp_extract

语法: regexp_extract(string subject, string pattern, int index)

返回值: string

说明： 将字符串subject按照pattern正则表达式的规则拆分，返回index指定的字符。

第一参数：要处理的字段

第二参数: 需要匹配的正则表达式

第三个参数:

0是显示与之匹配的整个字符串
1 是显示第一个括号里面的
2 是显示第二个括号里面的字段...

注意，在有些情况下要使用转义字符（双斜杠了‘\\’）。

举例：

select

regexp_extract('x=a3&x=18abc&x=2&y=3&x=4','x=([0-9]+)([a-z]+)',0), -- x=18abc

regexp_extract('x=a3&x=18abc&x=2&y=3&x=4','^x=([a-z]+)([0-9]+)',0), -- x=a3

regexp_extract('https://detail.tmall.com/item.htm?spm=608.7065813.ne.1.Ni3rsN&id=522228774076&tracelog=fromnonactive','id=([0-9]+)',0), -- id=522228774076

regexp_extract('https://detail.tmall.com/item.htm?spm=608.7065813.ne.1.Ni3rsN&id=522228774076&tracelog=fromnonactive','id=([0-9]+)',1), -- 522228774076

regexp_extract('http://a.m.taobao.com/i41915173660.htm','i([0-9]+)',0), -- i41915173660

regexp_extract('http://a.m.taobao.com/i41915173660.htm','i([0-9]+)',1) -- 41915173660

from test.dual;

正则匹配字符解释：