黑马程序员

心如月

于 2014-01-05 21:58:41 发布

阅读量438

点赞数

---------------------- ASP.Net+Android+IOS开发、.Net培训、期待与您交流！ ----------------------

一、正则表达式的概述
1、正则表达式是符合一定规则的表达式。
（1）特点：用一些特定的符号来表示一些代码的操作，这样简化书写。
（2）作用：专门用于操作字符串。
（3）好处：可以简化对字符串的复杂操作。
（4）弊端：符号定义越多，正则越长，阅读性越差。
2、具体的操作功能
（1）匹配：String matches方法；
（2）切割：String split方法；
（3）替换：String replaceAll(regex,str);//如果regex中有定义组，可以在第二参数中通过$符号获取正则表达式中已有的组；
（4）获取:将字符串中符合规则的子串匹配取出。
3、使用技巧：到底用四种功能中的哪一个呢？或者哪几个呢？
            思路方式：
1）如果只想知道该字符是否对是错，使用匹配。
2）想要将已有的字符串变成另一个字符串，替换。
3）想要按照自定的方式将字符串变成多个字符串。切割。获取规则以外的子串。
4）想要拿到符合需求的字符串子串，获取。获取符合规则的子串。
切割：获取规则以外的子串。               获取：获取符合规则的子串。
4、（1）字符类
[abc]      a、b 或 c（简单类）
[^abc]    任何字符，除了 a、b 或 c（否定）
[a-zA-Z] a 到 z 或 A 到 Z，两头的字母包括在内（范围）
[a-d[m-p]]    a 到 d 或 m 到 p：[a-dm-p]（并集）
[a-z&&[def]]   a、e 或 f（交集）
[a-z&&[^bc]]    a 到 z，除了 b 和 c：[ad-z]（减去）
[a-z&&[^m-p]] a 到 z，而非 m 到 p：[a-lq-z]（减去）
（2）预定义字符类
.                 任何字符（与行结束符可能匹配也可能不匹配）
\d                数字：[0-9]
\D                非数字： [^0-9]
\s               空白字符：[ \t\n\x0B\f\r]
\S                非空白字符：[^\s]
\w                单词字符：[a-zA-Z_0-9]
\W                非单词字符：[^\w]
（3）边界匹配器
^                 行的开头
$                 行的结尾
\b                单词边界
\B                非单词边界
\A                输入的开头
\G                上一个匹配的结尾
\Z                输入的结尾，仅用于最后的结束符（如果有的话）
\z                输入的结尾
（4）Greedy 数量词
X?                X，一次或一次也没有
X*                X，零次或多次
X+                X，一次或多次
X{n}              X，恰好 n 次
X{n,}             X，至少 n 次
X{n,m}            X，至少 n 次，但是不超过 m 次。

二、经典案例
网页爬虫(蜘蛛)

[java] view plain copy print ?

import java.io.*;
import java.util.regex.*;
import java.net.*;
import java.util.*;
class RegexTest2
{
public static void main(String[] args) throws Exception
{
getMails_1();
}
public static void getMails_1()throws Exception
{
URL url = new URL("http://192.168.1.254:8080/myweb/mail.html");
URLConnection conn = url.openConnection();
BufferedReader bufIn = new BufferedReader(new InputStreamReader(conn.getInputStream()));
String line = null;
String mailreg = "\\w+@\\w+(\\.\\w+)+";
Pattern p = Pattern.compile(mailreg);
while((line=bufIn.readLine())!=null)
{
Matcher m = p.matcher(line);
while(m.find())
{
System.out.println(m.group());
}
}
}
/*
获取指定文档中的邮件地址。
使用获取功能。Pattern Matcher
*/
public static void getMails()throws Exception
{
BufferedReader bufr =
new BufferedReader(new FileReader("mail.txt"));
String line = null;
String mailreg = "\\w+@\\w+(\\.\\w+)+";
Pattern p = Pattern.compile(mailreg);
while((line=bufr.readLine())!=null)
{
Matcher m = p.matcher(line);
while(m.find())
{
System.out.println(m.group());
}
}
}
}