正则表达式和Java复杂文本操作

引言:正则表达式是用来处理文本的功能强大的独立小语言,很多语言都可以使用,通常使用正则处理一些复杂的文本文件或者字符串,简单操作没必要使用正则。

一、正则表达式(Regular Expression)的简介

  1. 为什么需要正则表达式?
    文本的复杂处理。
  2. 正则表达式的优势和用途?
    1. 一种强大而灵活的文本处理工具;
    2. 大部分编程语言、数据库、文本编辑器、开发环境都支持正则表达式。
  3. 正则表达式的定义:
    1. 正如它的名字一样是描述了一个规则,通过这个规则可以匹配一类字符串。、
    2. 学习正则表达式很大程度上就是学习正则表达式的语法规则。
  4. 开发中使用正则表达式的流程:
    1. 分析所要匹配的数据,写出测试用的典型数据。
    2. 在工具软件中进行匹配测试。
    3. 在程序中调用通过测试的正则表达式。
  5. 正则表达式调试工具:RegexBuddy.exe

二、正则表达式语法

  1. 普通字符:
    字母、数字、汉字、下划线、以及没有特殊定义的标点符号,都是“普通字符”。表达式中的普通字符,在匹配一个字符串的时候,普配与之相同的一个字符。
  2. 简单的转义字符:
转义字符含义
\n代表换行符
\t制表符
\\代表\本身
\^,\$,\.,\(,\),\{,\},\?,\+,\*,\|匹配这些字符本身
  1. 标准字符集合:
    能够与“多种字符”匹配的表达式,区分大小写,大写是相反的意思。
标准字符集合含义
\d任意一个数字,0-9中的任意一个
\w任意一个字母或数字或下划线,也就是A-Z,a-z,0-9,_中任意一个
\s包括空格、制表符、换行符等空白字符的其中任意一个
.小数点可以匹配任意一个字符(除了换行符),如果要匹配包括“\n”在内的所有字符,一般用[\s\S]
  1. 自定义字符集合:
    []方括号匹配方式,能够匹配方括号中任意一个字符。
自定义字符集合含义
[ab5@]匹配“a”或“b”或“5”或“@”
[^abc]匹配“a”,“b”,“c”之外的任意一个字符
[f-k]匹配“f”-“k”之间的任意一个字母
[^A-F0-3]匹配“A”-“F”,“0”-“3”之外的任意一个字符

注:1.正则表达式的特殊符号,被包含到中括号中,则失去特殊意义,除了^,-之外。
  2.标准字符集合,除小数点外,如果被包含于中括号,自定义字符集合将包含该集合。比如:[\d.\-+]将匹配:数字、小数点、+、-。

  1. 量词:
    修饰匹配次数的特殊符号。
自定义字符集合含义
{n}表达式重复n次
{m,n}表达式至少重复m次,最多重复n次
{m,}表达式至少重复m次
?匹配表达式0次或者1次,相当于{0,1}
+表达式至少出现1次,相当于{1,}
*表达式不出现或出现任意次,相当于{0,}

注:1.匹配次数中的贪婪模式(匹配字符越多越好,默认)
  2.匹配次数中的非贪婪模式(匹配字符越少越好,修饰匹配次数的特殊符号后再加上一个“?”号)

  1. 字符边界:
    字符边界匹配的时候是零宽的,本组标记匹配的不是字符而是位置,符合某种条件的位置。
字符边界含义
^与字符串开始的地方匹配
$与字符串结束的地方匹配
\b匹配一个单词边界,\b匹配这样一个位置:前面的字符和后面的字符不全是\w
  1. 正则表达式的匹配模式:
    1. IGNORECASE 忽略大小写模式:
      匹配时忽略大小写。(默认情况下,正则表达式是要区分大小写的)
    2. SINGLELINE 单行模式:
      整个文本看作一个字符串,只有一个开头,一个结尾。
      使小数点 “.” 可以匹配包含换行符(\n)在内的任意字符
    3. MULTILINE 多行模式:
      每行都是一个字符串,都有开头和结尾。
      在指定了 MULTILINE 之后,如果需要仅匹配字符串开始和结束位置,可以使用 \A 和 \Z。
  2. 选择符和分组:
表达式作用
|分支结构左右两边表达式之间 “或” 关系,匹配左边或者右边
( )捕获组(1). 在被修饰匹配次数的时候,括号中的表达式可以作为整体被修饰(2). 取匹配结果的时候,括号中的表达式匹配到的内容可以被单独得到(3). 每一对括号会分配一个编号,使用 () 的捕获根据左括号的顺序从 1开始自动编号。捕获元素编号为零的第一个捕获是由整个正则表达式模式匹配的文本
(?:Expression)非捕获组一些表达式中,不得不使用( ),但又不需要保存( )中子表达式匹配的内容,这时可以用非捕获组来抵消使用( )带来的副作用。
  1. 反向引用(\nnn):
    每一对()会分配一个编号,使用 () 的捕获根据左括号的顺序从 1 开始自动编号。
    通过反向引用,可以对分组已捕获的字符串进行引用。

  2. 预搜索(零宽断言、环视):

    1. 只进行子表达式的匹配,匹配内容不计入最终的匹配结果,是零宽度。
    2. 这个位置应该符合某个条件。判断当前位置的前后字符,是否符合指定的条件,但不匹配前后的字符。是对位置的匹配
    3. 正则表达式匹配过程中,如果子表达式匹配到的是字符内容,而非位置,并被保存到最终的匹配结果中,那么就认为这个子表达式是占有字符的;如果子表达式匹配的仅仅是位置,或者匹配的内容并不保存到最终的匹配结果中,那么就认为这个子表达式是零宽度的。占有字符还是零宽度,是针对匹配的内容是否保存到最终的匹配结果中而言的。
表达式作用
(?=exp)断言自身出现的位置的后面能匹配表达式exp
(?<=exp)断言自身出现的位置的前面能匹配表达式exp
(?!exp)断言此位置的后面不能匹配表达式exp
(?<!exp)断言此位置的前面不能匹配表达式exp

三、常规正则表达式

表达式功能
[\u4e00-\u9fa5]匹配中文字符
\n\s*\r匹配空白行
<(\S*?)[^>]*>.*?</\1>|<.*? />断言此位置的后面不能匹配表达式exp
^\s*|\s*$匹配首尾空白字符
\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*匹配Email地址
[a-zA-z]+://[^\s]*匹配网址URL
\d{3}-\d{8}|\d{4}-\d{7}匹配国内电话号码
[1-9][0-9]{4,}匹配腾讯QQ号
[1-9]\d{5}(?!\d)匹配中国邮政编码
\d{15}|\d{18}匹配身份证
\d+\.\d+\.\d+\.\d+匹配ip地址

四、其它妙用

  1. 开发环境和文本编辑器中使用正则(有些高级语法不见得支持):
    1. eclipse
    2. Notepad++
    3. Editplus
    4. UltraEdit
  2. 数据库中使用正则:
    1. Mysql5.5以上
    2. Oracle10g以上
      例:select * from tbl_name where col_name regexp ‘.123’;

五、JAVA程序种使用正则表达式

相关类位于:java.util.regex包下面

  1. 类 Pattern:
    正则表达式的编译表示形式。
    Pattern p = Pattern.compile(r,int); //建立正则表达式,并启用相应模式
  2. 类 Matcher:
    通过解释 Pattern 对 character sequence 执行匹配操作的引擎。
    Matcher m = p.matcher(str); //匹配str字符串
  3. java代码应用正则的查找、分组、替换、分割:
    1. 查找:
      package com.bjsxt.regex.test;
      
      import java.util.regex.Matcher;
      import java.util.regex.Pattern;
      
      /**
       * 测试正则表达式对象的基本用法
       */
      public class Test1 {
      	public static void main(String[] args) {
      		//在这个字符串:abcd1234,是否符合指定的正则表达式:\w+
      		//表达式对象
      		Pattern p = Pattern.compile("\\w+");
      		//创建Matcher对象
      		Matcher m = p.matcher("abcd¥¥1234");
      		//boolean result= m.matches();	//尝试将整个字符序列与该模式匹配
      		//System.out.println(result);
      		
      		//boolean result= m.find();	//该方法扫描输入的序列,查找与该模式匹配的下一个子序列
      		
      		//System.out.println(m.find());
      		//System.out.println(m.group());
      		//System.out.println(m.find());
      		//System.out.println(m.group());
      	
      		while(m.find()){
      			System.out.println(m.group());	//group(),group(0)匹配整个表达式的子字符串
      			System.out.println(m.group(0));
      		}
      		
      	}
      }
      
    2. 分组:
      package com.bjsxt.regex.test;
      
      import java.util.regex.Matcher;
      import java.util.regex.Pattern;
      
      /**
       * 测试正则表达式对象中分组的处理
       */
      public class Test2 {
      	public static void main(String[] args) {
      		//在这个字符串:abcd1234,是否符合指定的正则表达式:\w+
      		//表达式对象
      		Pattern p = Pattern.compile("([a-z]+)([0-9]+)");
      		//创建Matcher对象
      		Matcher m = p.matcher("abc123%%abcd234%abcde4567");
      	
      		while(m.find()){
      			System.out.println(m.group());	//group(),group(0)匹配整个表达式的子字符串
      			System.out.println(m.group(1));
      			System.out.println(m.group(2));
      		}
      		
      	}
      }
      
    3. 替换:
      package com.bjsxt.regex.test;
      
      import java.util.regex.Matcher;
      import java.util.regex.Pattern;
      
      /**
       * 测试正则表达式对象的替换操作
       */
      public class Test3 {
      	public static void main(String[] args) {
      		//表达式对象
      		Pattern p = Pattern.compile("[0-9]");
      		//创建Matcher对象
      		Matcher m = p.matcher("abc123%%abcd234%abcde4567");
      		//替换
      		String result= m.replaceAll("#");
      		System.out.println(result);
      	}
      }
      
    4. 分割:
      package com.bjsxt.regex.test;
      
      import java.util.regex.Matcher;
      import java.util.regex.Pattern;
      
      /**
       * 测试正则表达式对象的分割字符串的操作
       */
      public class Test4 {
      	public static void main(String[] args) {
      		String str = "ab23jk123ji8890123asd";
      		String[] arrs = str.split("\\d+");
      		System.out.println(Arrays.toString(arrs));
      	}
      }
      
  4. 手写网络爬虫(基本原理&乱码处理):
    package com.bjsxt.regex.test;
    
    import java.io.BufferedReader;
    import java.io.IOException;
    import java.io.InputStreamReader;
    import java.net.MalformedURLException;
    import java.net.URL;
    import java.nio.charset.Charset;
    import java.util.ArrayList;
    import java.util.List;
    import java.util.regex.Matcher;
    import java.util.regex.Pattern;
    
    /**
     * 网络爬虫取链接	
     */
    public class WebSpiderTest {
    	
    	/**
    	 * 获得urlStr对应的网页的源码内容
    	 * @param urlStr
    	 * @return
    	 */
    	public static String  getURLContent(String urlStr,String charset){
    		StringBuilder sb = new StringBuilder();
    		try {
    			URL url = new URL(urlStr);
    			BufferedReader reader = new BufferedReader(new InputStreamReader(url.openStream(),Charset.forName(charset)));
    			String temp = "";
    			while((temp=reader.readLine())!=null){
    				sb.append(temp);
    			}
    		} catch (MalformedURLException e) {
    			e.printStackTrace();
    		} catch (IOException e) {
    			e.printStackTrace();
    		}
    		return sb.toString();
    	}
    	
    	
    	public static List<String> getMatherSubstrs(String destStr,String regexStr){
    		Pattern p = Pattern.compile(regexStr);	//取到的超链接的地址
    		Matcher m = p.matcher(destStr);
    		List<String> result = new ArrayList<String>();
    		while(m.find()){
    			result.add(m.group(1));
    		}	
    		return result;
    	}
    	
    	
    	public static void main(String[] args) {
    		String destStr = getURLContent("http://www.163.com","gbk");
    		
    		//Pattern p = Pattern.compile("<a[\\s\\S]+?</a>");//取到的超链接的整个内容
    		List<String> result = getMatherSubstrs(destStr, "href=\"([\\w\\s./:]+?)\"");
    		
    		for (String temp : result) {
    			System.out.println(temp);
    		}
    		
    	}
    }
    

PS:一些推荐的网络爬虫,java:jsoup,linux:wget,python:scrapy。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值