正则表达式

最新推荐文章于 2021-06-29 05:03:47 发布

夏夜的宁静

最新推荐文章于 2021-06-29 05:03:47 发布

阅读量1.2k

点赞数 1

分类专栏：学习日记

本文链接：https://blog.csdn.net/Thangzk/article/details/9840377

版权

学习日记专栏收录该内容

16 篇文章 0 订阅

订阅专栏

----------android培训、java培训、期待与您交流！ ------------

一：正则表达式概述：就是是用String类中的public boolean matches(String regex)方法；在方法中传入符合一定规定的表达式；其作用是
      就是用于操作字符串，
      特点：用于一些特定的符号来表示一些代码操作，这样就简化书写，还可以简化对字符串的复杂操作。
二：Pattern类概述:
      指定为字符串的正则表达式必须首先被编译为此类的实例。然后，可将得到的模式用于创建 Matcher 对象，依照正则表达式，该对象可以
      与任意字符序列匹配。执行匹配所涉及的所有状态都驻留在匹配器中，所以多个匹配器可以共享同一模式。
      在仅使用一次正则表达式时，可以方便地通过此类定义 matches 方法。此方法编译表达式并在单个调用中将输入序列与其匹配。语句
      boolean b = Pattern.matches("a*b", "aaaaab");等效于上面的三个语句，尽管对于重复的匹配而言它效率不高，因为它不允许重用已
      编译的模式。
      此类的实例是不可变的，可供多个并发线程安全使用。Matcher 类的实例用于此目的则不安全。

正则表达式的构造摘要
构造匹配

字符
x 字符 x
\\ 反斜线字符
\0n 带有八进制值 0 的字符 n (0 <= n <= 7)
\0nn 带有八进制值 0 的字符 nn (0 <= n <= 7)
\0mnn 带有八进制值 0 的字符 mnn（0 <= m <= 3、0 <= n <= 7）
\xhh 带有十六进制值 0x 的字符 hh
\uhhhh 带有十六进制值 0x 的字符 hhhh
\t 制表符 ('\u0009')
\n 新行（换行）符 ('\u000A')
\r 回车符 ('\u000D')
\f 换页符 ('\u000C')
\a 报警 (bell) 符 ('\u0007')
\e 转义符 ('\u001B')
\cx 对应于 x 的控制符

字符类
字符类可以出现在其他字符类中，并且可以包含并集运算符（隐式）和交集运算符 (&&)。并集运算符表示至少包含其某个操作数类中所有字符的类。交集运算符表示包含同时位于其两个操作数类中所有字符的类。

字符类运算符的优先级如下所示，按从最高到最低的顺序排列：

1     字面值转义     \x
2     分组 [...]
3     范围 a-z
4     并集 [a-e][i-u]
5     交集 [a-z&&[aeiou]]

注意，元字符的不同集合实际上位于字符类的内部，而非字符类的外部。例如，正则表达式 . 在字符类内部就失去了其特殊意义，而表达式 - 变成了形成元字符的范围。
[abc] a、b 或 c（简单类）
[^abc] 任何字符，除了 a、b 或 c（否定）
[a-zA-Z] a 到 z 或 A 到 Z，两头的字母包括在内（范围）
[a-d[m-p]] a 到 d 或 m 到 p：[a-dm-p]（并集）
[a-z&&[def]] d、e 或 f（交集）
[a-z&&[^bc]] a 到 z，除了 b 和 c：[ad-z]（减去）
[a-z&&[^m-p]] a 到 z，而非 m 到 p：[a-lq-z]（减去）

预定义字符类
. 任何字符（与行结束符可能匹配也可能不匹配）
\d 数字：[0-9]
\D 非数字： [^0-9]
\s 空白字符：[ \t\n\x0B\f\r]
\S 非空白字符：[^\s]
\w 单词字符：[a-zA-Z_0-9]
\W 非单词字符：[^\w]

POSIX 字符类（仅 US-ASCII）
\p{Lower} 小写字母字符：[a-z]
\p{Upper} 大写字母字符：[A-Z]
\p{ASCII} 所有 ASCII：[\x00-\x7F]
\p{Alpha} 字母字符：[\p{Lower}\p{Upper}]
\p{Digit} 十进制数字：[0-9]
\p{Alnum} 字母数字字符：[\p{Alpha}\p{Digit}]
\p{Punct} 标点符号：!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~
\p{Graph} 可见字符：[\p{Alnum}\p{Punct}]
\p{Print} 可打印字符：[\p{Graph}\x20]
\p{Blank} 空格或制表符：[ \t]
\p{Cntrl} 控制字符：[\x00-\x1F\x7F]
\p{XDigit} 十六进制数字：[0-9a-fA-F]
\p{Space} 空白字符：[ \t\n\x0B\f\r]

java.lang.Character 类（简单的 java 字符类型）
\p{javaLowerCase} 等效于 java.lang.Character.isLowerCase()
\p{javaUpperCase} 等效于 java.lang.Character.isUpperCase()
\p{javaWhitespace} 等效于 java.lang.Character.isWhitespace()
\p{javaMirrored} 等效于 java.lang.Character.isMirrored()

Unicode 块和类别的类
\p{InGreek} Greek 块（简单块）中的字符
\p{Lu} 大写字母（简单类别）
\p{Sc} 货币符号
\P{InGreek} 所有字符，Greek 块中的除外（否定）
[\p{L}&&[^\p{Lu}]] 所有字母，大写字母除外（减去）

边界匹配器
^ 行的开头
$ 行的结尾
\b 单词边界
\B 非单词边界
\A 输入的开头
\G 上一个匹配的结尾
\Z 输入的结尾，仅用于最后的结束符（如果有的话）
\z 输入的结尾

Greedy 数量词
X? X，一次或一次也没有
X* X，零次或多次
X+ X，一次或多次
X{n} X，恰好 n 次
X{n,} X，至少 n 次
X{n,m} X，至少 n 次，但是不超过 m 次

Reluctant 数量词
X?? X，一次或一次也没有
X*? X，零次或多次
X+? X，一次或多次
X{n}? X，恰好 n 次
X{n,}? X，至少 n 次
X{n,m}? X，至少 n 次，但是不超过 m 次

Possessive 数量词
X?+ X，一次或一次也没有
X*+ X，零次或多次
X++ X，一次或多次
X{n}+ X，恰好 n 次
X{n,}+ X，至少 n 次
X{n,m}+ X，至少 n 次，但是不超过 m 次

Logical 运算符
XY X 后跟 Y
X|Y X 或 Y
(X) X，作为捕获组

Back 引用
\n 任何匹配的 nth 捕获组

引用
\ Nothing，但是引用以下字符
\Q Nothing，但是引用所有字符，直到 \E
\E Nothing，但是结束从 \Q 开始的引用

特殊构造（非捕获）
(?:X) X，作为非捕获组
(?idmsux-idmsux) Nothing，但是将匹配标志i d m s u x on - off
(?idmsux-idmsux:X)   X，作为带有给定标志 i d m s u x on - off
的非捕获组 (?=X) X，通过零宽度的正 lookahead
(?!X) X，通过零宽度的负 lookahead
(?<=X) X，通过零宽度的正 lookbehind
(?<!X) X，通过零宽度的负 lookbehind
(?>X) X，作为独立的非捕获组

三常用的操作有：
(一)匹配：其实就用String类中的matches()方法；用规则匹配整个字符串，只要有一处不符合规则就匹配结束，返回false；否则就返回true；
        如示例:
        String name="1233";//要匹配的字符串
  String reg="[0-9]{3,5}?";//对字符串匹配的正则表达式
  boolean falg=name.matches(reg);//调用String类的matches方法获取该值是否匹配

public static void main(String[] args) {
		// TODO Auto-generated method stub
		String name="235456343@qq.com.cn";
		String reg="\\w+@[a-zA-z0-9]+(\\.[a-zA-Z]{2,3}){1,3}";
		boolean falg=name.matches(reg);
		System.out.println(falg);
	}

(二)切割：其实就用String类中的split()方法：在切割时要使用\\来做转义字符而不是使用单\来做转义字符；
组的概念:就是为了可以用规则的结果可以重用，就可以将规则封装在()中组的出现都有编号，从1开始，想要使用已有的组可以通过
\n(n就是组的编号)的形式来获取例如:

public static void main(String[] args) {
		// TODO Auto-generated method stub

		String name="agdfdkkk jdsdee sdfassfdf";//要判断的字符串
		String reg="(.)\\1+";//匹配的正则表达式
		String[] falg=name.split(reg);//通过String类split()方法来按照表达正则表达式切割数据返回一个数组
		for(String names:falg){
			System.out.println(names);
		}
	}

捕获组可以通过从左到右计算其开括号来编号。例如，在表达式 ((A)(B(C))) 中，存在四个这样的组：

      1     ((A)(B(C)))
      2     \A
      3     (B(C))
      4     (C)

               组零始终代表整个表达式。
              之所以这样命名捕获组是因为在匹配中，保存了与这些组匹配的输入序列的每个子序列。捕获的子序列稍后可以通过 Back 引用在表达式
              中使用，也可以在匹配操作完成后从匹配器获取。与组关联的捕获输入始终是与组最近匹配的子序列。如果由于量化的缘故再次计算了组，
              则在第二次计算失败时将保留其以前捕获的值（如果有的话）
               例如，将字符串 "aba" 与表达式 (a(b)?)+ 相匹配，会将第二组设置为 "b"。在每个匹配的开头，所有捕获的输入都会被丢弃。
              以 (?) 开头的组是纯的非捕获组，它不捕获文本，也不针对组合计进行计数。

(三)替换：就使用String类中的replaceAll()方法
           String str="王三三李斯斯";
     String regs="(.)\\1+";//定义正则表达式组
     String replacs="$1";//$1这个特殊符号就是指获取这个要匹配的(.)\\1+的叠词从第一组开始获取
     String nam=str.replaceAll(regs, replacs);
(四)获取：先要将正则表达式编译成正则对象，使用的是Pattern中的静态方法compile(regex);
                             然后在通过Pattern对象获取Matcher对象；Pattern用于描述正则表达式，可以对正则表达式进行解析。
  如示例：

public static void main(String[] args) {
		// TODO Auto-generated method stub

		String name="hai you shi tian jiu yao shang ke la";
		//这里的\\b是指--单词边界  --用来区分出单词来这样就可以按照每一单词来匹配了
		String reg="\\b[a-z]{3}\\b";//hai you shi jiu yao 
		//String reg="[a-z]{3}";//hai you shi tia jiu yao sha 
		//通过Pattern类的静态方法来获取该类的对象
		Pattern pattern=Pattern.compile(reg);
		//在通过Pattern该类的matcher来匹配正则表达式
		Matcher match=pattern.matcher(name);
		//Matchr类的find()方法返回的匹配正则表达式后返回的一个boolean值，
		while(match.find()){
			//在通过Matcher的group方法来获取符合表达式的值
			System.out.print(match.group()+"   该单词出现的位置");
			//这是一个包含头不包含尾的获取匹配单词所在的角标
			System.out.println(match.start()+"...."+match.end());
		}

小结：
     1：如果只想知道该字符是否对是错，使用匹配的方式；
     2：想要将已有的字符串变成另一个字符串，就使用替换；
     3：想要按照自定义的方式将字符串变成多个字符串；就先去切割在获取规则以外的字符子串；
     4：想要拿到符合需求的字符串字串，获取，获取符合规则的字串；

-----------android培训、java培训、期待与您交流！ -----------