处理字符数据,需要掌握一些正则表达式的知识,及一些相应的函数。
正则表达式
正则表达式,又称规则表达式。(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。
- 正则表达式是用于描述或匹配一个文本集合的表达式。
- 所有英文字母、数字和很多可现实的字符本身就是正则表达式,用于匹配它们自己。
- 一些特殊的字符在正则表达式中不再用来描述它自身,它们在正则表达式中已经被“转义”,这些字符称为“元字符”。
常用元字符
符号 | 描述 |
---|---|
. | 除了换行以外的任意字符 |
\ \ | 转义字符,如果要匹配括号就要写成“\ \ ( \ \ )” |
I | 表示可选项,即 I 前后的表达式任选一个 |
^ | 若放在表达式开始处,表示匹配文本开始位置; 若放在方括号内开始处,表示非方括号内的任一字符 |
$ | 放在句尾,表示一行字符串的结束 |
( ) | 提取匹配的字符串,( \ \ s * )表示连续空格的字符串 |
[ ] | 选择方括号中的任意一个(如 [a-z] 表示任意 |