正则表达式[]里的五个特殊字符

正则表达式[]里的五个特殊字符

 

在正则表达式[]里面,主要的特殊字符有五个:[]-\^。 
它们在特定情况下,需要表达本身的字面意思,就需要做转义处理;如果不做转义处理,可能会得到其他的意义,从而得到错误的匹配结果。 
除了这五个字符以外,在[]中的.*+|都是没有任何特殊意义的,它们都表示它们本身的字面意思,也就是说,*就是*

 

 

下面深入讲解下正则表达式[]里的这五个特殊字符:

(一)[ 和 ]

因为与正则表达式[]本身冲突,因此,需要匹配其本身时,需要进行转义处理。 
例如, 
源文本:我是一名[PHP]工程师,而不是一名[Java]工程师,也不是一名[C++]工程师,更不是一名[C#]工程师。 
需求:匹配[]中的工程师类型,工程师类型由大小写字母和+#构成。 
正则:\[([a-zA-Z+#]+)\]

(二)-

一般情况下,我们会使用[0-9]或者[a-z]这样的表达式来表达数字和小写字母,也就是说,-在此处的意思是表达一个范围值,即从09和从az

如果我们想要得到一个由*-+组成的匹配时,可能有些人会写成[*-+],而且,有些时候测试用例不完整的情况下,还发现不了问题。

[*-+]这个表达式其实表示的是*的ASCII值到+的ASCII值的范围,在我们常见的字母、数字、特殊字符区间里,它刚好能匹配*+,却并没像预期那样匹配到-。甚至,如果你写成了[+-*],它还会报错,就像你不能写成[9-0]一样,它会提示你:Warning: preg_match(): Compilation failed: range out of order in character class at offset 3。而如果你写成了[-*+]或者[*+-],那么恭喜你,你碰巧写对了。

因此,对于[]中的-,如果需要表达其字面意思,除非我们把它写到了[]的开头或者结尾,我们都是需要做转义处理的,也就是[*\-+]。虽然写到开头或结尾不需要转义,但我还是建议,需要表达-本身字面意思时,最好都使用转义,这也便于维护者对于该表达式的理解。

(三)\

\本身是转义符,如果你不对它做转义,它将对其后面的字符做转义,所以,这个字符要表达其字面意思时,必须做转义,也就是\\

(四)^

^我们常见用法是[^0-9]这种,在[]中放到开头,用于表示排除,也就是非的意思。[^0-9]就表示 [0-9] 的任意字符,也就是,匹配不包含0123456789的其他任意字符。 
但是,如果^写到了[]的其他地方,也就是不在开头时,它就表示它自己的字面意思了。 
-一样,虽然在不同位置能让它的特殊功能失效,但是想要匹配其字面意思时,我还是建议大家对它进行转义处理,也就是[\^]这样。

(五) 总结

别问我为什么只有4个,请回去看看(一)里有几个。

在正则表达式[]里面,主要有五个特殊字符:[]-\^,需要表达其字面意思时,最好都对它们进行转义,而其他的任何字符,在[]都只能表达其字面意思。 
因此,特别强调一个非常常见的错误写法:[https|http] 
有些人想要表达https或者http的意思,就写了这个错误匹配,我们会发现,上面的式子其实等价[htps|],原因很简单,[]是单字符匹配,而且里面的|只能表达其字面意思。对于这个例子的改正可以用下面两种写法: 
(https|http) 和 https?。 
(https|http),利用了|字符  的意义,因为|的作用域是从左到右,直到遇到括号为止,因此,使用|的时候需要特别留意,一定要使用括号限定,否则又可能陷入另一个错误当中,如^https|http://,本来要表达^https://^http://,却得到了^httpshttp://。 
https?,这个利用了?的0个或1个匹配的意义,如果s?匹配0个,那么就能匹配http,如果s?匹配1个,那么就能匹配https,从而达到预期目的。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值