正则表达式
正则表达式简介
正则表达式描述了一种字符串匹配的模式(pattern),是处理字符串的强大工具(效率上不如字符串自带的方法),拥有自己独特的语法以及独立的处理引擎:可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。
正则表达式匹配的大致过程如下:
依次将表达式中的字符与文本内容进行比对,如果每一个字符都能匹配上,则匹配成功,否则匹配失败。
简单实例
- ^[0-9]+abc$
- ^为匹配字符串的开始位置
- [0-9]+匹配多个数字,[0-9]匹配单个数字
- abc匹配字母abc并以abc结尾,$为匹配输入字符串的结束位置
为什么使用正则表达式?
普通的搜索和替换方法可以满足对静态文本的简单操作,但它缺乏灵活性,如果采用这种方法搜索动态文本,就会变得非常困难。
正则表达式的语法
正则表达式是有普通字符(a到z)以及特殊字符(称为元字符)组成的文字模式。正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。
例如:
- runoo+b,可以匹配 runoob、runooob、runoooooob 等,+ 号代表前面的字符必须至少出现一次(1次或多次)。
- runoo*b,可以匹配 runob、runoob、runoooooob 等,* 号代表字符可以不出现,也可以出现一次或者多次(0次、或1次、或多次)。
- colou?r 可以匹配 color 或者 colour,? 问号代表前面的字符最多只可以出现一次(0次、或1次)。
普通字符:包括所有大小写字母,数字,标点以及一些其他符号。
非打印字符:换页符(\f),换行符(\n),回车符(\r)等等
特殊字符:有一些特殊含义的字符,若要匹配这些字符,必须先对这些字符进行转义。
限定