正则表达式
一、什么是正则表达式
正则表达式是一种用于描述和匹配字符串的模式,通常由文本字符和特殊字符组成。文本字符表示普通的字符,可以匹配该字符本身或者匹配原文本中的该字符;特殊字符由多个文本字符组成,用于表示一类特定的字符或字符序列。
正则表达式中的特殊字符包括但不限于:元字符、字符类、重复限定符、分组、反向引用等。
- 元字符表示单个的字符,例如点号 . 表示任意单个字符,而星号 * 则表示零个或多个前面的字符;
- 字符类用一组方括号 [ ] 来表示,例如 [abc] 表示匹配 a、b 或 c 中的任意一个字符;
- 重复限定符可以用来表示字符或字符串的出现次数,例如星号 * 表示零个或多个,而加号 + 表示一个或多个;
- 分组则可以将一组字符或子表达式结合起来,并给该组取一个名称或编号,而反向引用则可以在正则表达式中引用先前已经匹配的字符或子表达式。
正则表达式广泛应用于各种编程语言和工具中,如Java、Python、.NET等等。在Java中,可以使用java.util.regex包中的Pattern和Matcher类来进行正则表达式操作。正则表达式的主要用途是进行字符串操作,包括字符串匹配、替换、提取等操作。
二、项目中常用的正则表达式
1、邮箱
engineer-001@gmail.com 只允许英文字母、数字、下划线、英文句号、以及中划线组成
^[a-zA-Z0-9_-]+@[a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)+$
2、固定电话
XXX-XXXXXXX XXXX-XXXXXXXX 固定电话
^\\d{3}-\\d{7,8}|\\d{4}-\\d{7,8}$
3、手机号
^1[3-9]\d{9}$
4、域名
^([a-zA-Z0-9][-a-zA-Z0-9]{0,62}\\.)+[a-zA-Z]{2,}$
5、汉字
^[\u4e00-\u9fa5]{0,}$
6、英文和数字
^[A-Za-z0-9]+$
7、长度为3-20的所有字符
^.{3,20}$
8、由26个英文字母组成的字符串
^[A-Za-z]+$
9、由数字、26个英文字母或者下划线组成的字符串
^\w+$
10、禁止输入含有%&',;=?$"等字符
[^%&',;=?$\x22]+
学习此篇,可参考正则表达式——JS篇进行系统的学习。