java regex 正则表达式
import java.io.*;
import java.util.*;
import java.util.regex.MatchResult;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class RegexTest {
/**
* @auther xia_zhigang
* 匹配特定数字:
* ^[1-9]d*$ //匹配正整数
* ^-[1-9]d*$ //匹配负整数
* ^-?[1-9]d*$ //匹配整数
* ^[1-9]d*|0$ //匹配非负整数(正整数 + 0)
* ^-[1-9]d*|0$ //匹配非正整数(负整数 + 0)
* ^[1-9]d*.d*|0.d*[1-9]d*$ //匹配正浮点数
* ^-([1-9]d*.d*|0.d*[1-9]d*)$ //匹配负浮点数
* ^-?([1-9]d*.d*|0.d*[1-9]d*|0?.0+|0)$ //匹配浮点数
* ^[1-9]d*.d*|0.d*[1-9]d*|0?.0+|0$ //匹配非负浮点数(正浮点数 + 0)
* ^(-([1-9]d*.d*|0.d*[1-9]d*))|0?.0+|0$ //匹配非正浮点数(负浮点数 + 0)
*
* 匹配特定字符串:
* ^[A-Za-z]+$ //匹配由26个英文字母组成的字符串
* ^[A-Z]+$ //匹配由26个英文字母的大写组成的字符串
* ^[a-z]+$ //匹配由26个英文字母的小写组成的字符串
* ^[A-Za-z0-9]+$ //匹配由数字和26个英文字母组成的字符串
* ^w+$ //匹配由数字、26个英文字母或者下划线组成的字符串
*
* 在使用RegularExpressionValidator验证控件时的验证功能及其验证表达式介绍如下:
* 只能输入数字:“^[0-9]*$”
* 只能输入n位的数字:“^d{n}$”
* 只能输入至少n位数字:“^d{n,}$”
* 只能输入m-n位的数字:“^d{m,n}$”
* 只能输入零和非零开头的数字:“^(0|[1-9][0-9]*)$”
* 只能输入有两位小数的正实数:“^[0-9]+(.[0-9]{2})?$”
* 只能输入有1-3位小数的正实数:“^[0-9]+(.[0-9]{1,3})?$”
* 只能输入非零的正整数:“^+?[1-9][0-9]*$”
* 只能输入非零的负整数:“^-[1-9][0-9]*$”
* 只能输入长度为3的字符:“^.{3}$”
* 只能输入由26个英文字母组成的字符串:“^[A-Za-z]+$”
* 只能输入由26个大写英文字母组成的字符串:“^[A-Z]+$”
* 只能输入由26个小写英文字母组成的字符串:“^[a-z]+$”
* 只能输入由数字和26个英文字母组成的字符串:“^[A-Za-z0-9]+$”
* 只能输入由数字、26个英文字母或者下划线组成的字符串:“^w+$”
* 验证用户密码:“^[a-zA-Z]w{5,17}$”正确格式为:以字母开头,长度在6-18之间,只能包含字符、数字和下划线。
* 验证是否含有^%&',;=?$"等字符:“[^%&',;=?$x22]+”
* 只能输入汉字:“^[u4e00-u9fa5],{0,}$”
* 验证Email地址:“^w+[-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*$”
* 验证InternetURL:“^http://([w-]+.)+[w-]+(/[w-./?%&=]*)?$”
* 验证电话号码:“^((d{3,4})|d{3,4}-)?d{7,8}$”
* 正确格式为:“XXXX-XXXXXXX”,“XXXX-XXXXXXXX”,“XXX-XXXXXXX”,“XXX-XXXXXXXX”,“XXXXXXX”,“XXXXXXXX”。
* 验证身份证号(15位或18位数字):“^d{15}|d{}18$”验证一年的12个月:“^(0?[1-9]|1[0-2])$”
* 正确格式为:“01”-“09”和“1”“12”
* 验证一个月的31天:“^((0?[1-9])|((1|2)[0-9])|30|31)$”
* 正确格式为:“01”“09”和“1”“31”。
*
* 匹配中文字符的正则表达式: [u4e00-u9fa5]
* 评注:匹配中文还真是个头疼的事,有了这个表达式就好办了
* 匹配双字节字符(包括汉字在内):[^x00-xff]评注:可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1)
* 匹配空白行的正则表达式:ns*r评注:可以用来删除空白行
* 匹配HTML标记的正则表达式:<(S*?)[^>]*>.*?|<.*? />评注:网上流传的版本太糟糕,上面这个也仅仅能匹配部分,对于复杂的嵌套标记依旧无能为力
* 匹配首尾空白字符的正则表达式:^s*|s*$评注:可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等),非常有用的表达式
* 匹配Email地址的正则表达式:w+([-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*评注:表单验证时很实用
* 匹配网址URL的正则表达式:[a-zA-z]+://[^s]*评注:网上流传的版本功能很有限,上面这个基本可以满足需求
* 匹配帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):^[a-zA-Z][a-zA-Z0-9_]{4,15}$评注:表单验证时很实用
* 匹配国内电话号码:d{3}-d{8}|d{4}-d{7}评注:匹配形式如 0511-4405222 或 021-87888822
* 匹配腾讯QQ号:[1-9][0-9]{4,}评注:腾讯QQ号从10000开始
* 匹配中国邮政编码:[1-9]d{5}(?!d)评注:中国邮政编码为6位数字
* 匹配身份证:d{15}|d{18}评注:中国的身份证为15位或18位
* 匹配ip地址:d+.d+.d+.d+评注:提取ip地址时有用
* 最强验证日期的正则表达式,添加了闰年的验证
* 这个日期正则表达式支持
* YYYY-MM-DD
* YYYY/MM/DD
* YYYY_MM_DD
* YYYY.MM.DD的形式
* match : 2008-2-29
* 2008/02/29
* not match : 2008-2-30 2007-2-29
* 完整的正则表达式如下:((^((1[8-9]\d{2})|([2-9]\d{3}))([-\/\._])(10|12|0?[13578])([-\/\._])(3[01]|[12][0-9]|0?[1-9])$)|(^((1[8-9]\d{2})|([2-9]\d{3}))([-\/\._])(11|0?[469])([-\/\._])(30|[12][0-9]|0?[1-9])$)|(^((1[8-9]\d{2})|([2-9]\d{3}))([-\/\._])(0?2)([-\/\._])(2[0-8]|1[0-9]|0?[1-9])$)|(^([2468][048]00)([-\/\._])(0?2)([-\/\._])(29)$)|(^([3579][26]00)([-\/\._])(0?2)([-\/\._])(29)$)|(^([1][89][0][48])([-\/\._])(0?2)([-\/\._])(29)$)|(^([2-9][0-9][0][48])([-\/\._])(0?2)([-\/\._])(29)$)|(^([1][89][2468][048])([-\/\._])(0?2)([-\/\._])(29)$)|(^([2-9][0-9][2468][048])([-\/\._])(0?2)([-\/\._])(29)$)|(^([1][89][13579][26])([-\/\._])(0?2)([-\/\._])(29)$)|(^([2-9][0-9][13579][26])([-\/\._])(0?2)([-\/\._])(29)$))
* 闰年的2月份有29天,因此匹配闰年日期格式为YYYY-MM-DD的正则表达式为:
* (([0-9]{2})(0[48]|[2468][048]|[13579][26])|((0[48]|[2468][048]|[3579][26])00))-02-29
* 最后,将平年和闰年的日期验证表达式合并,我们得到最终的验证日期格式为YYYY-MM-DD的正则表达式为:
* (([0-9]{3}[1-9]|[0-9]{2}[1-9][0-9]{1}|[0-9]{1}[1-9][0-9]{2}|[1-9][0-9]{3})-(((0[13578]|1[02])-(0[1-9]|[12][0-9]|3[01]))|((0[469]|11)-(0[1-9]|[12][0-9]|30))|(02-(0[1-9]|[1][0-9]|2[0-8]))))|((([0-9]{2})(0[48]|[2468][048]|[13579][26])|((0[48]|[2468][048]|[3579][26])00))-02-29)
* DD/MM/YYYY格式的正则验证表达式为:(((0[1-9]|[12][0-9]|3[01])/((0[13578]|1[02]))|((0[1-9]|[12][0-9]|30)/(0[469]|11))|(0[1-9]|[1][0-9]|2[0-8])/(02))/([0-9]{3}[1-9]|[0-9]{2}[1-9][0-9]{1}|[0-9]{1}[1-9][0-9]{2}|[1-9][0-9]{3}))|(29/02/(([0-9]{2})(0[48]|[2468][048]|[13579][26])|((0[48]|[2468][048]|[3579][26])00)))
*
*/
public static void main(String[] args) {
betterRead();
}
/**
* 正则表达式来识别下面格式的电话号码数字:0632-5025620或(010-68918923)。
*/
public static void regexTelphone(){
// Pattern pattern = Pattern.compile("[(})]");
Pattern pattern = Pattern.compile("(})");
Matcher matcher = pattern.matcher("010-68918923 dsa 010- 68918923 dsewd 010-68918923"); //以验证8836KV为例
// System.out.println(matcher.matches());
while(matcher.find()){
System.out.println(matcher.group());
}
}
/**
* 以a开始,以B结束
*/
public static void regexStartAndEnd(){
Pattern pattern = Pattern.compile("a.*?b");
Matcher matcher = pattern.matcher("kaghibaubebvk"); //以验证8836KV为例
// System.out.println(matcher.matches());
while(matcher.find()){
System.out.println(matcher.group());
}
}
/**
* 匹配典型的美国汽车牌照号码,如8836KV
* 美国汽车牌照的一种格式是四个数字加上二个字母。它的正则表达式前面是数字部分“[0-9]{4}”,再加上字母部分“[A-Z]{2}”。
* ---------
* find()方法是部分匹配,如果该匹配的串有组还可以使用group()函数,而matches()是全部匹配.
* 如果要验证一个输入的数据是否为数字类型或其他类型,一般要用matches();
*/
public static void regexAmericaCar(){
Pattern pattern = Pattern.compile("[0-9]{4}[A-Z]{2}");
Matcher matcher = pattern.matcher("8836KV"); //以验证8836KV为例
// System.out.println(matcher.matches());
while(matcher.find()){
System.out.println(matcher.group());
}
}
/**
* 格式为“June 26, 1951”的生日日期中提取出月份部分.
*/
public static void regexBirthday(){
Pattern pattern = Pattern.compile("([a-zA-Z]+)(})");
Matcher matcher = pattern.matcher("fdsadsafds June 26, 1951, 1952 sfda1233141 aaa June 27, 1951, 1952 bbb June 28, 1951, 1952 ccc"); //以验证127.400.600.2为例
System.out.println(matcher.matches());
while(matcher.find()){
System.out.println(matcher.group(0));
}
}
/**
* 通过reset()方法,可以将现有的Matcher对象应用于一个新的字符序列。
* ------
* 使用不带参数的reset()方法,可以将Matcher对象重新设置到当前字符序列的起始位置。
*/
public static void resetting(){
Matcher m = Pattern.compile("[frb][aiu][gx]")
.matcher("fix the rug with bags");
while(m.find()){
System.out.print(m.group() + " ");
}
System.out.println();
m.reset("fix th rig with rags");
while(m.find()){
System.out.print(m.group() + " ");
}
}
/**
* java SE5新增了Scanner类,它可以大大减轻扫描输入的工作负担
*/
public static void betterRead(){
BufferedReader input = new BufferedReader(new StringReader("Sir Robin of Camelot\n22 1.61803"));
Scanner stdin = new Scanner(input);
System.out.println("What is your name?");
String name = stdin.nextLine();
System.out.println(name);
System.out.println(
"How old are you? What is your favorite double?");
System.out.println("(input: <age> <double>)");
int age =stdin.nextInt();
double favorite = stdin.nextDouble();
System.out.println(age);
System.out.println(favorite);
System.out.format("Hi %s.\n",name);
System.out.format("In 5 years you wil be %d.\n", age + 5);
System.out.format("My favorite double is %f.", favorite / 2);
}
/**
* 到目前为止,从文件或标准输入读取数据还是一件相当痛苦的事情。
* 一般的解决之道就是读入一行文本,对其进行分词,然后使用Integer、Double
* 等类的各种解析方法来解析数据;
*/
public static void SimpleRead(){
BufferedReader input = new BufferedReader(new StringReader("Sir Robin of Camelot\n22 1.61803"));
try{
System.out.println("What is your name?");
String name = input.readLine();
System.out.println(name);
System.out.println(
"How old are you? What is your favorite double?");
System.out.println("(input: <age><double>)");
String numbers = input.readLine();
System.out.println(numbers);
String[] numArray = numbers.split(" ");
int age = Integer.parseInt(numArray[0]);
double favorite = Double.parseDouble(numArray[1]);
System.out.format("Hi %s.\n", name);
System.out.format("In 5 years you will be %d.\n", age+5);
System.out.format("My favorite double is %f.", favorite / 2);
}catch(IOException e){
System.err.println("I/O exception");
}
}
/**
* 在默认情况下,Scanner根据空白字符对输入进行分词,但是你可以用正则表达式指定
* 自己所需的定界符。
*/
public static void scannerDelimiter(){
Scanner scanner = new Scanner("12, 42, 78, 88, 42");
scanner.useDelimiter("*");
while(scanner.hasNextInt()){
System.out.println(scanner.nextInt());
}
}
/**
* 使用自定义的正则表达式进行扫描,这在扫描复杂数据的时候非常有用。
* 下面的例子将扫描一个防火墙日志文件中记录的威胁数据。
*/
public static void threatAnalyzer(){
String threatData =
"" +
"" +
"" +
"" +
"" +
"[Next log section with different data format]";
Scanner scanner = new Scanner(threatData);
String pattern = "(+)@" +
"(})";
while(scanner.hasNext(pattern)){
scanner.next(pattern);
MatchResult match = scanner.match();
String ip = match.group(1);
String date = match.group(2);
System.out.format("Threat on %s from %s\n", date,ip);
}
}
/**
* 在引入正则表达式和Scanner类之前,分割字符串的唯一方法是使用StringTokenizer来分词。
* 下面的方法将StringTokenizer和另外两种技术做了一个计较
*/
public static void replacingStringTokenizer(){
String input = "But I'm not dead yet! I fell happy!";
StringTokenizer stoke = new StringTokenizer(input);
while(stoke.hasMoreElements()){
System.out.print(stoke.nextToken() + " ");
}
System.out.println();
System.out.println(Arrays.toString(input.split(" ")));
Scanner scanner = new Scanner(input);
while(scanner.hasNext()){
System.out.print(scanner.next() + " ");
}
}
/**
* 从日志中匹配提取 IP地址和时间标记
*/
public static void getIPAndTimeByRegex(){
Matcher m = Pattern.compile("([0-9]{1,3}\\.[0-9]{1,3}\\.[0-9]{1,3}\\.[0-9]{1,3})\\s-\\s-\\s\\[([^\\]]+)\\]")
.matcher("172.26.155.241 - - [26/Feb/2001:10:56:03 -0500]\"GEAT /IsAlive.htm HTTP/1.0\" 200 15 ");
while(m.find()){
System.out.print(m.group() + " ");
}
System.out.println();
}
/**
* java验证邮箱格式
*/
public static void regexEmail(){
Pattern pattern = Pattern.compile("^([a-zA-Z0-9_\\-\\.]+)@((");
Matcher matcher = pattern.matcher("");
System.out.println(matcher.matches());
}
/**
* java验证日期时间,解决润月
*/
public static void regexLeapYear(){
Pattern pattern = Pattern.compile("^((");
Matcher matcher = pattern.matcher("2000-02-29 23:59:59");
System.out.println(matcher.matches());
}
/**
* 匹配IP 正则表达式
*/
public static void regexIP(){
Pattern pattern = Pattern.compile("");
Matcher matcher = pattern.matcher("127.255.200.2"); //以验证127.400.600.2为例
System.out.println(matcher.matches());
}
/**
* 匹配IP 分离判断
*/
public static void split(String regex){
String []str; // 这个字符型数组用来存储分割后的字符串
String ip="192.168.6.1";//假设的IP地址
str=ip.split(regex); //分割,并将结果存储在数组str[]中
for(int i=0;i<str.length;i++){
System.out.println(str[i]);
if(Integer.parseInt(str[i]) > 255){//转换类型并比较字符串是否小于255
System.out.println("Please input valid ip address");
}
}
System.out.println("Valid ip address");
}
public static void regTest(){
/*p("abc".matches("..."));//"."表示任意字符
//maches()告知此字符串是否匹配给定的正则表达式
p("a8888d".replaceAll("", "-"));//""表示正则表达式,d表示数字
///
Pattern p=Pattern.compile("[a-z]{3}");//预先编译可以提高之后的匹配速度
Matcher m=p.matcher("dds");
p(m.matches());
///
*/
/*Possessive 数量词
X?+ X,一次或一次也没有
X*+ X,零次或多次
X++ X,一次或多次
X{n}+ X,恰好 n 次
X{n,}+ X,至少 n 次
X{n,m}+ X,至少 n 次,但是不超过 m 次 */
//初步认识. * + ?
/
/*p("a".matches("."));
p("aa".matches("aa"));
p("aaaa".matches("a*"));//零次或多次
p("".matches("a*"));
p("".matches("a+"));//一次或多次
p("aaaa".matches("a+"));
p("aaa".matches("a?"));//一次或一次也没有
p("a".matches("a?"));
p("".matches("a?"));
p("112333333".matches("}"));
p("192.168.6.1".matches("匹配IP地址,表示一个或者三个数字
p("192".matches("[0-2][0-9][0-9]"));*/
/
//范围
/*p("ac".matches("[abc]{1,2}"));
p("a".matches("[^abc]"));//非abc
p("VdddMMN".matches("[a-zA-Z]{0,26}"));
p("Dd".matches("([a-z]|[A-Z]){1,4}"));
p("Dd".matches("[a-z[A-Z]]{1,3}"));
p("R".matches("[A-Z&&[RGF]]"));*/
//认识\s \w \d \
/*p(" ".matches("表示空格
p("w_A".matches("表示a-z|A-A|_,不包含空格
String str="abc888&^%";
p(str.matches("[a-z]{1,3}\\d+[&^%$]{1,3}"));
p("
/
p("3833".matches("(-|\\+)?\\d+"));
p("-3833".matches("(-|\\+)?\\d+"));//匹配- + 或者没有符号的数字
p("+3833".matches("(-|\\+)?\\d+"));
split("调用split()函数,将IP地址按“.”分割
// Pattern p=Pattern.compile("^([01]?\d\d?|2[0-4]\d|25[0-5])\.([01]?\d\d?|2[0-4]\d|25[0-5])\. ([01]?\d\d?|2[0-4]\d|25[0-5])\.([01]?\d\d?|2[0-4]\d|25[0-5])$");//预先编译可以提高之后的匹配速度
Pattern p = Pattern.compile("^[A-Za-z]+$");
Matcher m=p.matcher("aaaaasds");
p(m);
p(m.matches());
}
public static void p(Object o){
System.out.println(o);
}
}