正则表达式 Regular Expression

3 篇文章 0 订阅

重新整理记录一下正则规则

一、定义

Regular Expression - 正规的/有规律的表达式,是计算机科学的一个概念。使用一个字符串来描述、匹配一系列符合某个句法规则的字符串

最初这个概念是由Unix中的工具软件如sed和grep普及开的,通常简写为regex ['ridʒɛks]

几乎所有操作系统以及编程语言中都有正则表达式的应用

二、引擎

正则引擎主要分为两大类:

  • DFA
  • NFA
  • POSIX NFA

一. DFA引擎
速度:最快
特点:以文本为主导
主要使用者:awk、egrep、flex、lex、MySQL、Procmail

二. NFA引擎
速度:次之
特点:以表达式为主导,更容易操纵,一般程序员更偏爱NFA
只要使用者:GNU Emacs、Java、ergp、less、.NET、PCRE

三. POSIX NFA
意义:为了防止继续出现不同引擎的变体而产生的统一引擎
速度:最慢
使用者:mawk、GNU Emacs(使用时显式指定)

三、表达式的构造

表达式的基本思路:对字符串中的字符一个一个的进行匹配

构造匹配
Characters - 字符
x字符x就带表某个字符x
\\backslash 反斜杠
\0noctal 八进制数n
\xhhhexadecimal 十六进制数hh
\uhhhhhexadecimal 十六进制数hhhh
\ttab 制表符(‘\u0009’)
\nnewline 新行(‘\u000A’)
\rcarriage return 回车(‘\u000D’)
Character classes - 字符类型
[abc]a,b, or c
[^abc]exclusive OR 任意character except a,c, or c
[a-zA-Z]a through z or A through Z
[a-d[m-p]]并集,相当于[a-dm-p]
[a-z&&[bcd]]交集,相当于[bcd]
[a-z&&[^bc]]交集,相当于[ad-z]
Predefined character classes - 预定义的字符类型
.任意character
\dA digit:[0-9]
\DA non-digit:[^0-9]
\swhitespace:[ \t\n\x0B\f\r],注意中括号的第一个字符是空格(ASCII32)不是\t
\Snon-whitespace:[^\s]
\wA word:[a-zA-Z_0-9]
\WA non-word:[^\w]
Boundary matchers - 边界匹配器
^The beginning of a line
$The end of a line
\bA word boundary
\BA non-word boundary
Greedy quantifiers - 贪婪量词
X?X出现一次或not at all
X*X出现0次或多次
X+X出现一次或多次
X{n}X固定出现n次
X{n,}X至少出现n次
X{n,m}X出现n到m次
Reluctant quantifiers - 勉强量词由Greedy加”?”构成
X??X出现一次或not at all
X*?X出现0次或多次
X+?X出现一次或多次
X{n}?X固定出现n次
X{n,}?X至少出现n次
X{n,m}?X出现n到m次
Possessive quantifiers - 独占量词由Greedy加”+”构成
X?+X出现一次或not at all
X*+X出现0次或多次
X++X出现一次或多次
X{n}+X固定出现n次
X{n,}+X至少出现n次
X{n,m}+X出现n到m次
Logical operators - 逻辑操作符
XYX后面跟Y
XY
(X)X,作为一个捕获组capturing group
Back references - 引用捕获组
\n代表捕获组中的第n个,第0个默认代表整个表达式
Special constructs - 特殊构造包括非捕获组
(?:X)X作为非捕获组
(?=X)X通过零宽度正向预测先行断言,匹配X前面的位置
(?!X)X通过零宽度负预测先行断言,匹配后面跟的不是exp的位置
(?<=X)X通过零宽度正回顾后发断言,匹配X后面的位置
(?X通过零宽度负回顾后发断言,匹配前面不是X的位置
(?>X)X作为独立组,非捕获

TIPS:
零宽度断言用于匹配那些:在X之前或之后的需求

四、一些点

1. Groups and capturing 组和捕获

捕获组的编号通过从左至右数左括号来编号,如表达式((A)(B(C)))中,

0:始终代表整个表达式
1:((A)(B(C)))
2:(A)
3:(B(C))
4:(C)

捕获的子序列可以通过上面说的Back references在表达式中使用

2. Backslash 反斜线

\Backslash反斜线用于:

  1. 引用转义构造
  2. 引用其它应该被解释为非转义构造的字符(转义字符想要正常使用)
  3. 另外,在Java中字符串中的反斜线被视为Unicode转义(写法\uxxxx)或其它字符转义,因此需要使用两个反斜线来代表原意

五、Java中

使用到的各种情况,功能直接或间接都是由java.util.regex包中的两个类Pattern和Matcher的方法来完成的

  1. Pattern类
    正则表达式的编译表示形式

    指定为字符串的正则表达式必须首先被编译为此类的实例:

    Pattern p = Pattern.compile(regex);

    Pattern只创建正则对象,而具体功能的实现则由Matcher类提供,典型的调用顺序是:

    Pattern p = Pattern.compile("a*b");
    Matcher m = p.matcher("aaaaaab");
    boolean b = m.matches();
  2. Matcher类
    通过解释某个固定的Pattern从而对固定character sequence执行匹配操作的引擎

    Matcher对象一经建立,其Pattern和String都已经确定了

    匹配器可以执行3种不同的匹配操作:

    1. matches
      将整个输入序列与该模式进行匹配
    2. lookingAt
      将输入序列从头开始与该模式匹配
    3. find
      扫描输入序列以查找与该模式匹配的下一个子序列

    当由以上3个中任意一个匹配方法匹配成功后,就可做很多事情了,如:
    m.group();//获取刚刚匹配的输入子序列
    m.start();//获取刚刚匹配的输入子序列的开始索引
    m.end();//同上,结束索引

1. 匹配

/**
 * 1. 匹配
 *  方法:使用String的matches()
 *  规则:第一位必须是1,第二位可以是3/5/8,后面是9位数字
 */
String str1 = "13812312319";
String regex1 = "1[358]\\d{9}";
System.out.println(str1.matches(regex1));//true

2. 分割

/**
 * 2. 分割
 *  方法:使用String的split()
 *  目标:
 *  2.1 任意个空格的分割
 *  2.2 以.分割:需要注意取消.在正则中代表任意字符的含义
 *  2.3 重复的字符来分割,需要使用分组,因为要求第2个字符跟第1个相同
 */
String str21 = "asdf 909  sdfd sadf           sdf";
String regex21 = "\u0020+";//空格就是\u0020(十进制32),也可以直接敲个 (前面是个空格),或者使用\\s
String [] strs21 = str21.split(regex21);

String str22 = "asdf.909.sdfd.sadf.sdf";
String regex22 = "\\.";//首先\.代表想正常使用点(而不是正则字符),又因为在Java的String中,所以再加\
String [] strs22 = str22.split(regex22);

String str23 = "asdfssss909aaaasdfdbbbbbsadfttttsdf";
String regex23 = "([a-z])\\1+";//首先,第一个字符是任意小写英文;接着,第二个字符和第一个一样;最后,第二个字符出现至少一次
String [] strs23 = str23.split(regex23);

3. 替换

/**
 * 3. 替换
 *  方法:使用String的replaceAll()
 *  目标:
 *  3.1 简单替换
 *  3.2 使用被替换的内容替换,将重复的变为1个:需使用组,可以在方法第二个参数中使用美元符号$选取组
 *  3.3 手机号码中4位用*号代替
 */
String str31 = "asdf 909  sdfd sadf           sdf";
String regex31 = "\u0020+";
str31 = str31.replaceAll(regex31, "1");//asdf19091sdfd1sadf1sdf

String str32 = "asdf 909  sdfd sadf           sdf";
String regex32 = "(\u0020)+";
str32 = str32.replaceAll(regex32, "$1");//asdf 909 sdfd sadf sdf

String str33 = "13812312319";
String regex33 = "(.{3}).{4}(.{4})";//将需要保留的内容编组保留,以便之后还原,然后整体替换
str33 = str33.replaceAll(regex33, "$1****$2");

4. 获取

/**
 * 4. 获取
 *  方法:创建一个匹配给定输入(String)和给定模式(Pattern)的匹配器(Matcher)
 *  目标:
 *  4.1 获取3个字母组成的单词
 */
String str41 = "asdf, sdd*adf%$$sdsf";
String regex41 = "[a-z]{3}";
Pattern p = Pattern.compile(regex41);//创建正则模式对象
Matcher m = p.matcher(str41);//创建根据固定字符串和模式的匹配器
while(m.find()){//查找一个匹配的子序列
    System.out.println(m.group());//返回之前匹配的输入子序列
}

完整的学习正则表达式和Java中的正则,我推荐两个地址:

正则表达式30分钟入门教程
JavaSE8的API中的java.util.regex.Pattern类

正则表达式所有东西还是不少的,较为复杂,而且平常使用的只是一小部分,没有必要全学完
可以学会常用的,不常用的用到时去上面两个地方查询






20161126 突然想到应该记录下,自己用到的正则

常用正则表达式记录

  1. JavaBean中给private字段加空注释

    /**
     * 
     */

    find:private
    Replace with:/*\r\n\u0009\u0020\u0020\r\n\u0009\u0020*/\r\n\u0009private

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值