正则表达式及在Java程序中的使用

最新推荐文章于 2024-06-03 08:55:36 发布

Mai_Dreizehn

最新推荐文章于 2024-06-03 08:55:36 发布

阅读量261

点赞数 1

分类专栏：爬虫

爬虫专栏收录该内容

11 篇文章 0 订阅

订阅专栏

《语法》

1.普通字符

2.简单的转义字符

\n	代表换行符
\t	制表符
\\	代表\本身
\^ , \$ , \. , $ , $	匹配这些字符本身

3.标准字符集合：

- 能够与“多种字符”匹配的表达式

- 注意区分大小写，大写是相反的意思

\d	任意一个数字，0~9中的任意一个
\w	任意一个字母或数字或下划线，也就是A~Z,a~z,0~9,_中任意一个
\s	包括空格，制表符，换行符等空白字符的其中任意一个
.	小数点可以匹配任意一个字符（除了换行符）如果要匹配包括“\n"在内的所有字符，一般用[\s\S]

4.自定义字符集合：

- []方括号匹配方式，能够匹配方括号中任意一个字符

[ab5@]	匹配”a","b","5","@"中的任意一个
[^abc]	匹配a,b,c之外的任意一个字符
[f-k]	匹配“f-k之间的任意一个字母
[^A-F0-3]	匹配A~F,0~3之外的任意一个字符

- 正则表达式的特殊符号，被包含到中括号中，则失去特殊意义，除了^,-之外

- 标准字符集合，除小数点外，如果被包含于中括号，自定义字符集合将包含该集合。比如：

[\d.\-+]将匹配：数字，小数点，+，-

5.量词

修饰匹配次数的特殊符号

{n}	表达式重复n次
{m,n}	表达式至少重复m次，最多重复n次
{m,}	表达式至少重复m次
？	匹配表达式0次或1次，相当于{0，1}
+	表达式至少出现1次，相当于{1.}
*	0次或任意次，相当于{0，}

匹配次数中的贪婪模式（匹配字符越多越好）

匹配次数的非贪婪模式（匹配字符越少越好，修饰匹配次数的特殊符号后再加上一个？）

6.字符边界

（标记匹配的不是字符而是位置，符合某种条件的位置）

^	与字符串开始的地方匹配
$	与字符串结束的地方匹配
\b	匹配一个单词边界（前面的字符和后面的字符不全是\w）

7.选择符和分组

分支结构

左右两边表达式之间”或“关系，匹配左边或者右边

（）

捕获组

（1）在被修饰匹配次数的时候，括号中的表达式可以作为整体被修饰

（2）去匹配结果的时候，括号中的表达式匹配到的内容可以被单独得到

（3）每一对括号会分配一个编号，使用（）的捕获根据左括号的顺序从1开始自动编号。捕获元素编号为0的第一个捕获是由整个正则表达式模式匹配的文本

（？：Expression）

非捕获组

一些表达式中，不得不使用（），但又不需要保存（）中子表达式匹配的内容，这时可以用非捕获组来抵消使用（）带来的副作用

反向引用：通过反向引用，可以对分组已捕获的字符串进行引用

8.预搜索（零宽断言）

- 只进行子表达式的匹配，匹配内容不计入最终的匹配结果，是零宽度

- 这个位置应该符合某个条件。判断当前位置的前后字符，是否符合指定的条件，但不匹配前后的字符。是对位置的匹配。

- 正则表达式匹配过程中，如果子表达式匹配到的是字符内容，而非位置，并被保存到最终的匹配结果中，那么就认为这个子表达式是占有字符的；如果子表达式匹配的仅仅是位置，或者匹配的内容并不保存到最终的匹配结果中，那么就认为这个子表达式是零宽度的。占有字符还是零宽度，是针对匹配的内容是否保存到最终的匹配结果中而言的。

（？=exp）	断言自身出现的位置的后面能匹配表达式exp
（？<= exp）	断言自身出现的位置的前面能匹配表达式exp
（?!exp）	断言此位置的后面不能匹配表达式exp
（?<!exp）	断言此位置的前面不能匹配表达式exp

JAVA程序中使用正则表达式

Pattern:

- 正则表达式的编译表示形式。

- Pattern p = Pattern.cpmpile(r,int); //建立正则表达式

Matcher

- Matcher m = p.matcher(str); //匹配str字符串

package Regex;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * 测试正则表达式对象的基本用法
 */
public class test01 {
    public static void main(String[] args) {
        //在这个字符串：asfsdf23323,是否符和指定的正则表达式:\w+
        //将给定的正则表达式编译到模式中
        Pattern p = Pattern.compile("\\w+");
        //创建Matcher对象,匹配器
        /**
         * 1.matches 方法尝试将整个输入序列与该模式匹配。
         * 2.find 方法扫描输入序列以查找与该模式匹配的下一个子序列。
         */
        Matcher m = p.matcher("asfsdf2&&3323");  //创建 匹配给定输入与此模式的匹配器
// 		boolean yesorno = m.matches();	//尝试将整个字符序列与该模式匹配
//		System.out.println(yesorno);
//		boolean yesorno2 = m.find();	//该方法扫描输入的序列，查找与该模式匹配的下一个子序列
// 		System.out.println(yesorno2);
        /**
         * find():尝试查找与该模式匹配的输入序列的下一个子序列
         * group():返回由以前匹配操作所匹配的输入子序列。
         * group(int group):返回在以前匹配操作期间由给定组捕获的输入子序列。
         */
        while(m.find()){
            System.out.println(m.group());	//group(),group(0)匹配整个表达式的子字符串
            System.out.println(m.group(0));
        }
    }
}

package Regex;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * 测试正则表达式对象中分组的处理
 */
public class test02 {
    public static void main(String[] args) {
        //在这个字符串：asfsdf23323，是否符合指定的正则表达式：\w+
        //表达式对象
        Pattern p = Pattern.compile("([a-z]+)([0-9]+)");
        //创建Matcher对象
        Matcher m = p.matcher("aa232**ssd445*sds223");

        while(m.find()){
            System.out.println(m.group());	//group(),group(0)匹配整个表达式的子字符串
            System.out.println(m.group(1));
            System.out.println(m.group(2));
        }
    }
}

package Regex;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * 测试正则表达式对象的替换操作
 */
public class test03 {
    public static void main(String[] args) {
        //表达式对象
        Pattern p = Pattern.compile("[0-9]");
        //创建Matcher对象
        Matcher m = p.matcher("aa232**ssd445*sds223");
        //替换
        String newStr = m.replaceAll("#");
        System.out.printf(newStr);
    }
}

package Regex;

import java.util.Arrays;

/**
 * 测试正则表达式对象的分割字符串的操作
 */
public class test04 {
    public static void main(String[] args) {
        String str = "a232b4334c3434";
        String arrs[] = str.split("\\d+");
        System.out.printf(Arrays.toString(arrs));
    }
}