使用正则表达式 讲解

转载 2016年05月30日 11:35:06

什么是正则表达式

从概念上来说,正则表达式也是一门小巧而精炼的语言,它可以用来简化检索特定的字符串,替换特定字符等功能,有许多开发语言工具,都内嵌支持正则表达式。那么一个正则表达式,究竟是什么?其实它就是一个字符串,但这个字符串具有特定含义。

基础语法

字面值

所谓字面值,就是没有任何转义,查找的对象就是其本身,比如正则表达式 abc ,查找的结果就是返回要查找字符串中 a, b, c三个字母连在一起的字符串。又如,123 就是查找到 123 这个子串。

特殊字符

句号

.在正则表达式中表示匹配任意字符,很相似于通配符*。如果我们查找a.b这个正则表达式,我们可以找到所有开头和结尾为a,b,中间是任意字符的字符串,比如abc,adc,a2c等。

字符类([])

如果你在一个正则表达式中看到有一些字符被[]括号括起来,那么他们的含义将不再是简单的字面值,他们表示某一个被括号中属性约束的字符。比如[123456],这个正则表达式表示找到1-6中的任意一个字符,又比如a[bd]c,这表示查找abc或者adc

注意:

  • 在字符类中字符的顺序和重复性都不是我们关心的。[123]和[2233111],含义是一模一样的。
  • 句号在字符类中表示的就是其本身,[.]就是查找一个句号。

区间符号(-)

如果我们需要查找一个数字,[0123456789],这样做是可以达到目的的,但这写起非常麻烦,并不符合正则表达式小巧的特性,这时我们可以使用区间符号来简化,[0-9]和上面的式子意义完全一样。同样,我们可以[a-zA-Z],表示任意一个字母。

注意:

  • 区间的范围应该有意义,[a-1]这样的区间并无任何意义,尽管它在语法上可能没有错误;
  • 区间左右两端对应的是字符,并不是数字,比如[2-41],这个式子的含义是找到2-4的一个数字或者1,和[1-4]是一样的。

取反符号(^)

^在正则表达式中表示取反,这个很好理解,[^a],表示找到除了a之外的任意字符。[^0-9],表示找到一个非数字的字符。

注意:

  • ^必须在中括号内,及字符类属性中使用。
  • ^是将后面的整体作为取反条件的。

简化的字符类

某些符号具有和字符类相同的含义:

  • \d[0-9]相同
  • \w[0-9A-Za-z_]相同 表示
  • 数字,字母或者下划线**\s
  • 表示匹配空格,tab**和换行等不可见符。

与此相对的\D,\W,\S,则表示上述条件的取反情况。

乘法集({})

乘法集的最大用处也是简化正则表达式,用大括号表示。比如,a{2},表示找到 aa 这个字符串。

注意:

乘法集是已前面整体为乘法条件的,比如 [ab]{2},不是简单的比配aa,bb,而是和[ab][ab]含义是相同的,会匹配ab,ba,aa,bb。

乘法集中的区间(,)

乘法集和字符类相同,也可以用区间进行简化,但是符号不相同。a{1,3},表示找到a,aa,aaa这三个字符串。a{0,1}是合法的,表示找到空字符,或者a。

注意:

  • 乘法集的"越长越好"属性:乘法集具有这样的特点,比如a{2,4},如果我搜索myaaaa,它不会找到aa后就停止,而是会找到aaaa
  • 乘法集的"全部获取"属性:比如 a{2.4},如果搜索 myaayouaaaa,它会找到 aa 和 aaaa
  • 乘法集支持开区间,a{1,} 是合法的,表示找到任何 a 相连的字符串。

判断符号(?)

这个符号的含义和 {0,1} 完全相同,123?4,表示匹配 1234 或者 124 ;

统配符号(*)

这个符号的含义和 {0,} 相同,比如.* 表示通配一切字符串。

+符号

这个符号和{1,}相同。

或符号(|)

|符号表示或的关系,比如 abc|edf,表示找到 abc 或者 def ;

组合(())

小括号在正则表达式中表示组合,比如(a|b|c)d,表示找到adbdcd,可以将小括号的作用理解为优先级。

单词边界(\b)

\b 表示单词的边界,比如 \b[a-z]{3}\b ,表示匹配一个三个字母的小写单词。

行边界(^ $)

单单的一个^符号表示的是行的开头,$表示行的结束。

注意:

  • [^]是非法的,[$]表示匹配一个$符号。

做些小总结

上面说了这么多正则表达式的语法规则,我们现在来做下总结:

几个概念:

  • 字面值:直接查找的字符,比如123, avb。
  • 字符类:描述字符的一些属性,比如[123], [a-z], \d, \w, \s, . 。
  • 乘法集:简化表达式,比如 {0,3}, ?, +, *。
  • 或和组合:比如(a|b|v)。
  • 单词,行的边界\b ^ $

元字符列表

. \ [ ] { } ? * + | ( ) ^ $

3、字符类中元字符列表

[ ] \ - ^

一个特别重要的字符

最后,还有一个特别特别重要的字符我们没考虑到,如果我们要查找元字符怎么办,在正则表达式中还有一个转义字符"\",如果我们要查找. 只要查找 \. 同理\[\]是查找"[]"这个字符串。如果要查找"\",再加一个转义字符就好:\\

C++正则表达式的使用

C++里面使用正则表达式一般有三种:C regex,C ++regex,boost regex C regex 的速度是最快的 C++ regex 速度一般 boost regex 速...
  • makenothing
  • makenothing
  • 2015年12月25日 19:56
  • 12063

javascript常用正则表达式和解析

一、正则表达式(regular expression简称res) 1、定义: 一个正则表达式就是由普通字符以及特殊字符(称为元字符)组成的文字模式。该模式描述在查找文字主体时待匹配的一个或多个字符串。...
  • u012572955
  • u012572955
  • 2015年07月20日 09:16
  • 2212

linux正则表达式详解

1:什么是正则表达式: 简单的说,正则表达式就是处理字符串的方法,它是以行为单位进行字符串的处理行为,正则表达式通过一些特殊符号的辅助,可以让用户轻易达到查找,删除,替换某特定字符串的处理程序。 2:...
  • wuliowen
  • wuliowen
  • 2017年03月20日 21:01
  • 908

韩顺平 javascript教学视频_学习笔记34_js正则表达式详解

内容介绍----正则表达式的详解 正则表达式对象: RegExp对象方法 我们来看一下RegExp对象都有哪些方法 ...
  • fuyizhonhong
  • fuyizhonhong
  • 2016年02月23日 16:49
  • 1728

Java学习系列(二十四)Java正则表达式详解

正则表达式可以说是用来处理字符串的一把利器,它是一个专门匹配n个字符串的字符串模板,本质是查找和替换。在实例演示之前先了解一下Pattern、Matcher这两个工具类,Pattern:编译好的带匹配...
  • JAVE_LOVER
  • JAVE_LOVER
  • 2015年05月05日 17:22
  • 6375

正则表达式快速入门(python示例)

正则表达式的作用我就不赘述了,首先讲解一下单个字符的匹配。 1、‘’.“(点):匹配除了(\n)之外的所有字符。 首先import re,以下的示例都默认已经导入了re包,不再另行说明。 string...
  • ali197294332
  • ali197294332
  • 2016年03月15日 22:19
  • 1083

正则表达式前端使用手册

目录 导读 回顾历史 正则表达式的定义 元字符 反义元字符 重复限定符 字符组 排除性字符组 多选结构 括号 转义字符 操作符的运算优先级 测试 修饰符...
  • u013291076
  • u013291076
  • 2017年01月03日 09:43
  • 667

Java正则表达式的基本用法

Java正则表达式主要有两个类:Pattern和Matcher。 Pattern表示正则表达式的编译形式。 Matcher表示执行匹配操作的引擎。 下面通过几个例子展示两个类的使用方法。 ...
  • zhangzeyuaaa
  • zhangzeyuaaa
  • 2016年01月12日 15:28
  • 3361

Python3 如何优雅地使用正则表达式(详解一)

注:本文翻译自 Regular Expression HOWTO,小甲鱼童鞋对此做了一些注释和修改。 正则表达式介绍 正则表达式(Regular expressions 也称为 R...
  • goodboy5201314
  • goodboy5201314
  • 2015年01月12日 14:23
  • 3105

Java学习笔记之Pattern类的用法详解(正则表达式)

java.util.regex.Pattern (摘自sun主页) Implements:Serializable   正则表达式的编译表示形式。 指定为字符串的正则表达式必须首...
  • WuGee2015
  • WuGee2015
  • 2015年09月05日 18:38
  • 1330
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:使用正则表达式 讲解
举报原因:
原因补充:

(最多只允许输入30个字)