正则表达式的定义是以字符为基本单位的。
字符可分为元字符和普通字符。
元字符:是在正则表达式中表示特殊含义的字符。
普通字符:指除元字符外的所有Unicode字符。
说明:Unicode(统一码、万国码、单一码)是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。
元字符包括:
“.”:用于匹配任何单字符(除换行符外)。
“\”:用于字符转义。
“^”:用于匹配输入字符串的开始。
“$”:用于匹配输入字符串的结束。
“|”:可用来创建多个正则表达式分支。
“?”:作为量词出现,用来匹配0个或1个字符。
“*”:作为量词出现,用来匹配0个或多个字符。
“+”:作为量词出现,用来匹配1个或多个字符。
“{}”:和为量词出现,用来匹配指定个数的字符。
例:A{3}:表示匹配3个字符“A”。
A{3,}:表示匹配3个或更多字符“A”。
A{3,5}:表示匹配3个到5个字符“A”。
“[]”:定义了某个范围内的字符。
例:[az]:用于匹配字符“a”或“z”。
[a-z]:用于匹配字符“a”到“z”的任意字符。
[a-z0-9]:用于匹配字符“a”到“z”或字符“0”到“9”中的任意字符。
[^a-z]:表示除了“a”和“z”之外的所有Unicode字符。
注:这里的“^”表示该范围之外的字符集合,必须出现在“[]”之内。
常用的反义代码:
\b:代表单词的开头或结尾,也就是单词的分界处;
\s:匹配任意的空白符(包括空格、制表符、换行符、中文全角空格等);
\s+:匹配不包含空白符的字符串;
\w:匹配字母、数字、下划线等;
\d:匹配一位数字(0~9);
[^x]:匹配除了x以外的任意字符
[^aeiou]:匹配除了aeiou这几个字母以外的任意字符;
字符可分为元字符和普通字符。
元字符:是在正则表达式中表示特殊含义的字符。
普通字符:指除元字符外的所有Unicode字符。
说明:Unicode(统一码、万国码、单一码)是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。
元字符包括:
“.”:用于匹配任何单字符(除换行符外)。
“\”:用于字符转义。
“^”:用于匹配输入字符串的开始。
“$”:用于匹配输入字符串的结束。
“|”:可用来创建多个正则表达式分支。
“?”:作为量词出现,用来匹配0个或1个字符。
“*”:作为量词出现,用来匹配0个或多个字符。
“+”:作为量词出现,用来匹配1个或多个字符。
“{}”:和为量词出现,用来匹配指定个数的字符。
例:A{3}:表示匹配3个字符“A”。
A{3,}:表示匹配3个或更多字符“A”。
A{3,5}:表示匹配3个到5个字符“A”。
“[]”:定义了某个范围内的字符。
例:[az]:用于匹配字符“a”或“z”。
[a-z]:用于匹配字符“a”到“z”的任意字符。
[a-z0-9]:用于匹配字符“a”到“z”或字符“0”到“9”中的任意字符。
[^a-z]:表示除了“a”和“z”之外的所有Unicode字符。
注:这里的“^”表示该范围之外的字符集合,必须出现在“[]”之内。
常用的反义代码:
\b:代表单词的开头或结尾,也就是单词的分界处;
\s:匹配任意的空白符(包括空格、制表符、换行符、中文全角空格等);
\s+:匹配不包含空白符的字符串;
\w:匹配字母、数字、下划线等;
\d:匹配一位数字(0~9);
[^x]:匹配除了x以外的任意字符
[^aeiou]:匹配除了aeiou这几个字母以外的任意字符;