作用:用于匹配一个字符串中的子串
正则表达式本身作用只是匹配,至于将匹配的内容提取出来,其实是依赖于各编程语言中实现正则表达式功能的对应库和类,如python中的re包
正则表达式其实挺简单,关键在于网上各类教程对一些语法的表述容易让人误解,导致结果与预想不同,另外就是一些匹配功能不会写
一 常见误解
1.1 “.” 点号能匹配所有字符
1.误解一:"." 点号能匹配所有字符,用".*“能匹配所有字符串
实际上:”." 点号只能匹配除了换行符之外的所有字符,当目标子串中含有换行符时,".*"这种不能匹配上整个子串,只能匹配到换行符前为止
应改为:[.\n]*、[\s\S]*、[\d\D]*
1.2 "[…]“方括号内能表示"或”
2.误解二:"[…]“方括号内能表示"或”,多个字符串是"或"的关系时,可以直接写在"[…]“内,如”[(字符串A)(字符串B)]"
实际上:"[…]“方括号内只能表示字符(Char)之间的"或”,不能表示正则表达式之间的或,字符串(String)就是一个正则表达式,故不能表示字符串(String)之间的"或"
应改为:((字符串A)|(字符串B))
另外:[]的另一用处是,只有在[]中^才能表示非
1.3 "^”表示开头,“$”表示结尾
3.误解三:"^A"表示匹配后的子串以A开头,"B$“表示匹配后的子串以B为结尾,”^AB$“表示匹配以A开头以B结束的子串
实际上:”^“表示原字符串的开头,可以想象为原字符串前面还有一个字符X,表达式中的”^“对齐在X的位置;”$“的作用同理。”^AB$“表示原字符串为"AB”,注意因为表达式中AB之间没有字符,所以连表示以A开头以B结束的任意原字符串都不能。
应改为:“A.*B”,子串以啥开头直接写就行了
二 常见需求
2.1 匹配两特定字符(串)之间的一段字符串
分析:正则表达式本身没法指定要匹配的子串前方是什么字符,后方是什么字符,通过正则表达式匹配到的结果只能是正则表达式表示的整个内容。要将两特定字符如"<www.baidu.com>“之间的URL字符串取出来,必须要知道目标子串开头的模式www,然后通过”[^>]*"表示中间的字符内容
应写为:“http[^>]*”
2.2 匹配包含字符串abc或者 123 的字符串
[…]中用的是字符而非一个正则表达式,所以不能用[…]来实现
.(字符串A|字符串B).