在大数据日常开发中,遇到从某些字符串中匹配或替换某个元素是很常见的事情,比如:电话号码字段的值会有+86、86开头的值,现想将这列的值全部变为11的手机号码,那么我们就需要利用hive中的正则表达式达到效果
create table temp.temp_mobile_tb (mobile string);
insert into table temp.temp_mobile_tb values ('+8615613526666'), ('8613598985656'), ('18955996677'), ('');
select regexp_replace(mobile, '^\\+86|86', '') from temp.temp_mobile_tb;
OK
_c0
15613526666
13598985656
18955996677
注意:
- hive中的正则Java中正则区别在于Java的转义’\’,而hive用双斜杠了’\\’
正则表达式基本语法
普通字符
普通字符包括没有显示指定为元字符的所有可打印和不可打印字符。这包括所有大写和小写字母,所有数字,所有标点符号和其他一些符号。
非打印字符
非打印字符也可以是正则表达式的组成部分。下面列出表示非打印字符的转义序列:
字符 | 描述 |
---|---|
\cx | 匹配由x指明的控制字符。例如, \cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则,将 c 视为一个原义的 ‘c’ 字符。 |
\f | 匹配一个换页符。等价于\x0c 和\cL |
\n | 匹配一个换行符。等价于\x0a和\cJ |
\r | 匹配一个回车符。等价于\x0d和\cM |
\s | 匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。注意 Unicode 正则表达式会匹配全角空格符。 |
\S | 匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。 |
\t | 匹配一个制表符。等价于 \x09 和 \cI |
\v | 匹配一个垂直制表符。等价于 \x0b 和 \cK |
\W | 匹配任意不是字母,数字,下划线,汉字的字符 |
\S | 匹配任意不是空白符的字符 |
\D | 匹配任意非数字的字符 |
\B | 匹配不是单词开头或结束的位置 |
[^x] | 匹配除了x以外的任意字符 |
[^aeiou] | 匹配除了aeiou这几个字母以外的任意字符 |
特殊字符
所谓特殊字符,就是有一些特殊含义的字符,需要在试图匹配它们时特别对待。若要匹配这些特殊字符,必须首先使字符“转义”。
特别字符 | 描述 |
---|---|
$ | 匹配输入字符串的结尾位置。如果设置了 RegExp 对象的 Multiline 属性,则 字符本身,请使用 $ |
() | 标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符,请使用 ( 和 ) |
* | 匹配前面的子表达式零次或多次。要匹配 * 字符,请使用 * |
+ | 匹配前面的子表达式一次或多次。要匹配 + 字符,请使用 + |
. | 匹配除换行符 \n 之外的任何单字符。要匹配 . ,请使用 . |
[ | 标记一个中括号表达式的开始。要匹配 [,请使用 [ |
? | 匹配前面的子表达式零次或一次,或指明一个非贪婪限定符。要匹配 ? 字符,请使用 ? |
\ | 将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。例如, ‘n’ 匹配字符 ‘n’。’\n’ 匹配换行符。序列 ‘\’ 匹配 “”,而 ‘(’ 则匹配 “(” |
^ | 匹配输入字符串的开始位置,除非在方括号表达式中使用,此时它表示不接受该字符集合。要匹配 ^ 字符本身,请使用 ^ |
{ | 标记限定符表达式的开始。要匹配 {,请使用 { |
| | 指明两项之间的一个选择。要匹配 |
限定符
限定符用来指定正则表达式的一个给定组件必须要出现多少次才能满足匹配。正则表达式的限定符有:
字符 | 描述 |
---|---|
* | 匹配前面的子表达式零次或多次。例如,ap* 能匹配 “a” 以及 “apple”。* 等价于{0,} |
+ | 匹配前面的子表达式一次或多次。例如,‘ap+’ 能匹配 “ap” 以及 “apple”,但不能匹配 “a”。+ 等价于 {1,} |
? | 匹配前面的子表达式零次或一次。例如,“app(le)?” 可以匹配 “app” 、 “apple” 。? 等价于 {0,1} |
{n} | n 是一个非负整数。匹配确定的 n 次。例如,'ap{2}不能匹配"ape",但能匹配"app" |
{n,} | n 是一个非负整数。至少匹配n 次 |
{n,m} | m 和 n 均为非负整数,其中n <= m。最少匹配 n 次且最多匹配 m 次 |
*,+限定符都是贪婪的,因为它们会尽可能多的匹配文字,只有在它们的后面加上一个?就可以实现非贪婪或最小匹配。
定位符
定位符能够将正则表达式固定到行首或者行尾,还能定位在一个单词内部或者开头或者结尾。正则表达式的定位符有:
字符 | 描述 |
---|---|
^ | 匹配输入字符串开始的位置 |
$ | 匹配输入字符串结尾的位置 |
\b | 匹配一个字边界,即字与空格间的位置 |
\B | 非字边界匹配 |
选择
用圆括号将所有选择项括起来,相邻的选择项之间用|分隔。但用圆括号会有一个副作用,使相关的匹配会被缓存,此时可用?:放在第一个选项前来消除这种副作用。
其中 ?: 是非捕获元之一,还有两个非捕获元是 ?= 和 ?!,这两个还有更多的含义,前者为正向预查,在任何开始匹配圆括号内的正则表达式模式的位置来匹配搜索字符串,后者为负向预查,在任何开始不匹配该正则表达式模式的位置来匹配搜索字符串。
在Hive中的使用
- regexp_replace
语法: regexp_replace(string A, string B, string C)
返回值: string
说明:将字符串A中的符合java正则表达式B的部分替换为C。注意,在有些情况下要使用转义字符,类似oracle中的regexp_replace函数。
> select regexp_replace('fuyun', 'u|n', '');
+------+--+
| _c0 |
+------+--+
| fy |
+------+--+
- regexp_extract
语法: regexp_extract(string subject, string pattern, int index)
返回值: string
说明:将字符串subject按照pattern正则表达式的规则拆分,返回index指定的字符。
> select regexp_extract('foothebar', 'foo(.*?)(bar)', 1);
+------+--+
| _c0 |
+------+--+
| the |
+------+--+
> select regexp_extract('isStartDate=2019-07-14', '.*?StartDate\\=([^&]+)',1);
+-------------+--+
| _c0 |
+-------------+--+
| 2019-07-14 |
+-------------+--+