hive中的正则表达式


在大数据日常开发中,遇到从某些字符串中匹配或替换某个元素是很常见的事情,比如:电话号码字段的值会有+86、86开头的值,现想将这列的值全部变为11的手机号码,那么我们就需要利用hive中的正则表达式达到效果

create table temp.temp_mobile_tb (mobile string);

insert into table temp.temp_mobile_tb values ('+8615613526666'), ('8613598985656'), ('18955996677'), ('');

select regexp_replace(mobile, '^\\+86|86', '') from temp.temp_mobile_tb;
OK
_c0
15613526666
13598985656
18955996677

注意:

  1. hive中的正则Java中正则区别在于Java的转义’\’,而hive用双斜杠了’\\’

正则表达式基本语法

普通字符

普通字符包括没有显示指定为元字符的所有可打印和不可打印字符。这包括所有大写和小写字母,所有数字,所有标点符号和其他一些符号。

非打印字符

非打印字符也可以是正则表达式的组成部分。下面列出表示非打印字符的转义序列:

字符描述
\cx匹配由x指明的控制字符。例如, \cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则,将 c 视为一个原义的 ‘c’ 字符。
\f匹配一个换页符。等价于\x0c 和\cL
\n匹配一个换行符。等价于\x0a和\cJ
\r匹配一个回车符。等价于\x0d和\cM
\s匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。注意 Unicode 正则表达式会匹配全角空格符。
\S匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
\t匹配一个制表符。等价于 \x09 和 \cI
\v匹配一个垂直制表符。等价于 \x0b 和 \cK
\W匹配任意不是字母,数字,下划线,汉字的字符
\S匹配任意不是空白符的字符
\D匹配任意非数字的字符
\B匹配不是单词开头或结束的位置
[^x]匹配除了x以外的任意字符
[^aeiou]匹配除了aeiou这几个字母以外的任意字符

特殊字符

所谓特殊字符,就是有一些特殊含义的字符,需要在试图匹配它们时特别对待。若要匹配这些特殊字符,必须首先使字符“转义”。

特别字符描述
$匹配输入字符串的结尾位置。如果设置了 RegExp 对象的 Multiline 属性,则 字符本身,请使用 $
()标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符,请使用 ( 和 )
*匹配前面的子表达式零次或多次。要匹配 * 字符,请使用 *
+匹配前面的子表达式一次或多次。要匹配 + 字符,请使用 +
.匹配除换行符 \n 之外的任何单字符。要匹配 . ,请使用 .
[标记一个中括号表达式的开始。要匹配 [,请使用 [
?匹配前面的子表达式零次或一次,或指明一个非贪婪限定符。要匹配 ? 字符,请使用 ?
\将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。例如, ‘n’ 匹配字符 ‘n’。’\n’ 匹配换行符。序列 ‘\’ 匹配 “”,而 ‘(’ 则匹配 “(”
^匹配输入字符串的开始位置,除非在方括号表达式中使用,此时它表示不接受该字符集合。要匹配 ^ 字符本身,请使用 ^
{标记限定符表达式的开始。要匹配 {,请使用 {
|指明两项之间的一个选择。要匹配

限定符

限定符用来指定正则表达式的一个给定组件必须要出现多少次才能满足匹配。正则表达式的限定符有:

字符描述
*匹配前面的子表达式零次或多次。例如,ap* 能匹配 “a” 以及 “apple”。* 等价于{0,}
+匹配前面的子表达式一次或多次。例如,‘ap+’ 能匹配 “ap” 以及 “apple”,但不能匹配 “a”。+ 等价于 {1,}
?匹配前面的子表达式零次或一次。例如,“app(le)?” 可以匹配 “app” 、 “apple” 。? 等价于 {0,1}
{n}n 是一个非负整数。匹配确定的 n 次。例如,'ap{2}不能匹配"ape",但能匹配"app"
{n,}n 是一个非负整数。至少匹配n 次
{n,m}m 和 n 均为非负整数,其中n <= m。最少匹配 n 次且最多匹配 m 次

*,+限定符都是贪婪的,因为它们会尽可能多的匹配文字,只有在它们的后面加上一个?就可以实现非贪婪或最小匹配。

定位符

定位符能够将正则表达式固定到行首或者行尾,还能定位在一个单词内部或者开头或者结尾。正则表达式的定位符有:

字符描述
^匹配输入字符串开始的位置
$匹配输入字符串结尾的位置
\b匹配一个字边界,即字与空格间的位置
\B非字边界匹配

选择

用圆括号将所有选择项括起来,相邻的选择项之间用|分隔。但用圆括号会有一个副作用,使相关的匹配会被缓存,此时可用?:放在第一个选项前来消除这种副作用。
其中 ?: 是非捕获元之一,还有两个非捕获元是 ?= 和 ?!,这两个还有更多的含义,前者为正向预查,在任何开始匹配圆括号内的正则表达式模式的位置来匹配搜索字符串,后者为负向预查,在任何开始不匹配该正则表达式模式的位置来匹配搜索字符串。

在Hive中的使用

  • regexp_replace
    语法: regexp_replace(string A, string B, string C)
    返回值: string
    说明:将字符串A中的符合java正则表达式B的部分替换为C。注意,在有些情况下要使用转义字符,类似oracle中的regexp_replace函数。
>  select regexp_replace('fuyun', 'u|n', '');
+------+--+
| _c0  |
+------+--+
| fy   |
+------+--+
  • regexp_extract
    语法: regexp_extract(string subject, string pattern, int index)
    返回值: string
    说明:将字符串subject按照pattern正则表达式的规则拆分,返回index指定的字符。
>  select regexp_extract('foothebar', 'foo(.*?)(bar)', 1);
+------+--+
| _c0  |
+------+--+
| the  |
+------+--+
> select regexp_extract('isStartDate=2019-07-14', '.*?StartDate\\=([^&]+)',1);
+-------------+--+
|     _c0     |
+-------------+--+
| 2019-07-14  |
+-------------+--+
  • 3
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
使用 JavaScript 编写的记忆游戏(附源代码)   项目:JavaScript 记忆游戏(附源代码) 记忆检查游戏是一个使用 HTML5、CSS 和 JavaScript 开发的简单项目。这个游戏是关于测试你的短期 记忆技能。玩这个游戏 时,一系列图像会出现在一个盒子形状的区域 。玩家必须找到两个相同的图像并单击它们以使它们消失。 如何运行游戏? 记忆游戏项目仅包含 HTML、CSS 和 JavaScript。谈到此游戏的功能,用户必须单击两个相同的图像才能使它们消失。 点击卡片或按下键盘键,通过 2 乘 2 旋转来重建鸟儿对,并发现隐藏在下面的图像! 如果翻开的牌面相同(一对),您就赢了,并且该对牌将从游戏消失! 否则,卡片会自动翻面朝下,您需要重新尝试! 该游戏包含大量的 javascript 以确保游戏正常运行。 如何运行该项目? 要运行此游戏,您不需要任何类型的本地服务器,但需要浏览器。我们建议您使用现代浏览器,如 Google Chrome 和 Mozilla Firefox, 以获得更好、更优化的游戏体验。要玩游戏,首先,通过单击 memorygame-index.html 文件在浏览器打开游戏。 演示: 该项目为国外大神项目,可以作为毕业设计的项目,也可以作为大作业项目,不用担心代码重复,设计重复等,如果需要对项目进行修改,需要具备一定基础知识。 注意:如果装有360等杀毒软件,可能会出现误报的情况,源码本身并无病毒,使用源码时可以关闭360,或者添加信任。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值