使用正则表达式做数据清洗
正则表达式语法
在操作大数据时,通常需要将某些数据进行清洗后再进行操作,某些不规则数据清洗需要用到正则表达式。正则表达式是一种匹配模式,可以进行字符匹配和位置匹配。
基本语法
语法 | 解释 |
---|---|
英文 | A-Za-z |
数字 | 0-9 |
() | 标记一个子表达式的开始和结束的位置,括号内表示一个连续的表达式;如果要匹配小括号,需要用\转义,例如:() |
[] | 定义匹配的字符范围,例如:[a-zA-Z]表示匹配大小写英文字符 |
{} | 定义匹配范围的长度,例如:{1}表示匹配一次,{1,}表示匹配大于等于1次,{2,3}表示匹配大于等于2小于等于3次 |
* | 匹配子表达式零次或多次 |
+ | 匹配子表达式1次或多次 |
? | 匹配子表达式0次或1次 |
\ | 转义字符 |
^ | 表示非的意思,例如:[^>]* 表示非>的字符可以有0次或多次 |
\d | 匹配一个数字字符,等价于[0-9] |
\D | 匹配一个非数字字符,等价于[^0-9] |
\w</ |