【Hive SQL】使用正则表达式做数据清洗

最新推荐文章于 2024-04-29 10:32:46 发布

木笔の园子

最新推荐文章于 2024-04-29 10:32:46 发布

阅读量1.7k

点赞数 2

分类专栏： # Hive 文章标签：正则表达式 hive 字符串

本文链接：https://blog.csdn.net/u011133007/article/details/118386413

版权

正则表达式语法

在操作大数据时，通常需要将某些数据进行清洗后再进行操作，某些不规则数据清洗需要用到正则表达式。正则表达式是一种匹配模式，可以进行字符匹配和位置匹配。

语法	解释
英文	A-Za-z
数字	0-9
()	标记一个子表达式的开始和结束的位置，括号内表示一个连续的表达式；如果要匹配小括号，需要用\转义，例如：()
[]	定义匹配的字符范围，例如：[a-zA-Z]表示匹配大小写英文字符
{}	定义匹配范围的长度，例如：{1}表示匹配一次，{1,}表示匹配大于等于1次，{2,3}表示匹配大于等于2小于等于3次
*	匹配子表达式零次或多次
+	匹配子表达式1次或多次
?	匹配子表达式0次或1次
\	转义字符
^	表示非的意思，例如：[^>]* 表示非>的字符可以有0次或多次

\d	匹配一个数字字符，等价于[0-9]
\D	匹配一个非数字字符，等价于[^0-9]
\w</