href="file:///C:/DOCUME~1/others/LOCALS~1/Temp/msohtml1/01/clip_filelist.xml" rel="File-List" />
Java 正则表达式
正则表达式介绍
在计算机科学中,是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串。在很多文本编辑器或其他工具里,正则表达式通常被用来检索和/或 替换那些符合某个模式的文本内容。许多程序设计语言都支持利用正则表达式进行字符串操作。例如,在Perl中就内建了一个功能强大的正则表达式引擎。正则 表达式这个概念最初是由Unix中的工具软件(例如sed和grep)普及开的。正则表达式通常缩写成“regex”,单数有regexp、regex, 复数有regexps、regexes、regexen。(百度百科)
一个正则表达式,就是用某种模式去匹配一类字符串的一个公式。
正则表达式现状
在最近的六十年中,正则表达式逐渐从模糊而深奥的数学概念,发展成为在计算机各类工具和软件包应用中的主要功能。不仅仅众多UNIX工具支持正则表达式, 近二十年来,在WINDOW的阵营下,正则表达式的思想和应用在大部分 Windows 开发者工具包中得到支持和嵌入应用!从正则式在Microsoft Visual Basic 6 或 Microsoft VBScript到.NET Framework中的探索和发展,WINDOWS系列产品对正则表达式的支持发展到无与伦比的高度,目前几乎所有 Microsoft 开发者和所有.NET语言都可以使用正则表达式。如果你是一位接触计算机语言的工作者,那么你会在主流操作系统(*nix[Linux, Unix等]、Windws、HP、BeOS等)、目前主流的开发语言(PHP、C#、Java、C++、VB、Javascript、Rubby等)、 数以亿万计的各种应用软件中,都可以看到正则表达式优美的舞姿。(百度百科)
正则表达式语法
元字符 | 描述 |
.点 | 匹配任何单个字符。例如正则表达式r.t匹配这些字符串:rat、rut、r t,但是不匹配root。 |
$ | 匹配行结束符。例如正则表达式weasel$ 能够匹配字符串"He's a weasel"的末尾 但是不能匹配字符串"They are a bunch of weasels." |
^ | 匹配一行的开始。例如正则表达式^When in能够匹配字符串"When in the course of human events"的开始,但是不能匹配"What and When in the" |
* | 匹配0或多个正好在它之前的那个字符。例如正则表达式.*意味着能够匹配任意数量的任何字符。 |
/ | 这是引用符,用来将这里列出的这些元字符当作普通的字符来进行匹配。例如正则表达式/$被用来匹配美元符号,而不是行尾,类似的,正则表达式/.用来匹配点字符,而不是任何字符的通配符。 |
[ ] [c1-c2] [^c1-c2] | 匹配括号中的任何一个字符。例如正则表达式r[aou]t 匹配rat、rot和rut,但是不匹配ret。可以在括号中使用连字符-来指定字符的区间,例如正则表达式[0-9]可以匹配任何数字字符;还可以制定 多个区间,例如正则表达式[A-Za-z]可以匹配任何大小写字母。另一个重要的用法是“排除”,要想匹配除了指定区间之外的字符——也就是所谓的补集 ——在左边的括号和第一个字符之间使用^字符,例如正则表达式[^269A-Z] 将匹配除了2、6、9和所有大写字母之外的任何字符。 |
/< /> | 匹配词(word)的开始(/<)和结束(/>)。例如正则表达式/<the/>能够匹配字符串"for the wise"中的"the",但是不能匹配字符串"otherwise"中的"the"。注意:这个元字符不是所有的软件都支持的。 |
/( /) | 将 /( 和 /) 之间的表达式定义为“组”(group),并且将匹配这个表达式的字符保存到一个临时区域(一个正则表达式中最多可以保存9个),它们可以用 /1 到/9 的符号来引用。 |
| | 将两个匹配条件进行逻辑“或”(Or)运算。例如正则表达式(him|her) 匹配"it belongs to him"和"it belongs to her",但是不能匹配"it belongs to them."。注意:这个元字符不是所有的软件都支持的。 |
+ | 匹配1或多个正好在它之前的那个字符。例如正则表达式9+匹配9、99、999等。注意:这个元字符不是所有的软件都支持的。 |
? | 匹配0或1个正好在它之前的那个字符。注意:这个元字符不是所有的软件都支持的。 |
/{i/} /{i,j/} | 匹配指定数目的字符,这些字符是在它之前的表达式定义的。例 如正则表达式A[0-9]/{3/} 能够匹配字符"A"后面跟着正好3个数字字符的串,例如A123、A348等,但是不匹配A1234。而正则表达式[0-9]/{4,6/} 匹配连续的任意4个、5个或者6个数字字符。注意:这个元字符不是所有的软件都支持的。 |
package regex;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class RegexDemo {
public static void main(String[] args) {
RegexDemo rd = new RegexDemo();
rd.t1();
rd.t2();
rd.t3();
rd.t4();
rd.t5();
rd.t6();
rd.t7();
}
//句点符号
public void t1() {
String str = "aec";
String reg = "a.c";
Pattern p = Pattern.compile(reg);
Matcher m = p.matcher(str);
boolean b = m.matches();
p(reg + " /tmathes " + str + " : " + b);
}
//方括号符号
public void t2() {
String str = "aIc";
String reg = "a[^a-z && 0-9]c";
Pattern p = Pattern.compile(reg);
Matcher m = p.matcher(str);
boolean b = m.matches();
p(reg + " /tmathes " + str + " : " + b);
}
//“或”符号
public void t3() {
String str = "aec";
String reg = "a(b|c|e|oo)c";
Pattern p = Pattern.compile(reg);
Matcher m = p.matcher(str);
boolean b = m.matches();
p(reg + " /tmathes " + str + " : " + b);
}
//匹配次数
public void t4() {
String str = "999-99-9999";
//注意这里是双斜杠,?代表上一个匹配可有可无
String reg = "[0-9]{3}//-[0-9]{2}//-?[0-9]{4}";
Pattern p = Pattern.compile(reg);
Matcher m = p.matcher(str);
boolean b = m.matches();
p(reg + " /tmathes " + str + " : " + b);
str = "998765432";
m = p.matcher(str);
b = m.matches();
p(reg + " /tmathes " + str + " : " + b);
}
//日期匹配
//匹配次数
public void t5() {
String str = "ewewJun 24,2010iewioew";
//注意这里是双斜杠,?代表上一个匹配可有可无
String reg = "(//p{Alpha}{3})//s//p{Digit}{1,2},//p{Digit}{4}";
Pattern p = Pattern.compile(reg);
Matcher m = p.matcher(str);
String[] spl = p.split(str);
p("长度" + spl.length);
for(int i = 0; i < spl.length; ++i) {
p(spl[i] + "长度 : " + spl[i].length());
}
boolean b = m.matches();
p(reg + " /tmathes " + str + " : " + b);
}
//预定义的字符类
public void t6() {
String str = "Jun kds";
//注意这里是双斜杠,?代表上一个匹配可有可无
String reg = "//p{Alpha}+ [a-z]{3}";
Pattern p = Pattern.compile(reg);
Matcher m = p.matcher(str);
boolean b = m.matches();
p(reg + " /tmathes " + str + " : " + b);
}
//邮箱匹配
public void t7() {
String str = "17288322@qq.com.cn.edu.cd";
String reg = "//p{Alnum}+@//p{Alpha}+[//.//p{Alnum}+]*//.//p{Alnum}+";
Pattern p = Pattern.compile(reg);
Matcher m = p.matcher(str);
boolean b = m.matches();
p(reg + " /tmathes " + str + " : " + b);
}
public static void p(String s) {
System.out.println(s);
}
}