hive 正则表达式

https://www.runoob.com/regexp/regexp-syntax.html

正则表达式(regular expression)描述了一种字符串匹配的模式(pattern),可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。

把一个由子母和数字组成的字符串,提取所有的字母串和数字串。简单想了下可以写udf解决,也可以用正则处理。采用正则处理的实例如下:

  1. --字符串'sdfsd1232sdf324',拆成'sdfsd','1232','sdf','324'

  2. select explode(split(regexp_replace('sdfsd1232sdf324','[0-9]+',','),','))

  3. union all 

  4. select explode(split(regexp_replace('sdfsd1232sdf324','[a-z]+',','),','))

该问题解决起来不算难,借着这个问题想要整理下Hive中的正则表达式的使用。

正则表达式基本语法

普通字符

普通字符包括没有显示指定为元字符的所有可打印和不可打印字符。这包括所有大写和小写字母,所有数字,所有标点符号和其他一些符号。

非打印字符

非打印字符也可以是正则表达式的组成部分。下面列出表示非打印字符的转义序列:

字符 描述
\cx 匹配由x指明的控制字符。例如, \cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则,将 c 视为一个原义的 'c' 字符。
\f 匹配一个换页符。等价于\x0c 和\cL
\n 匹配一个换行符。等价于\x0a和\cJ
\r 匹配一个回车符。等价于\x0d和\cM
\s 匹配任何空白字符
  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值