【概念理解】
正则表达式:符合一定规则的表达式
作用:专门用于操作字符串
用一些特定的符号来表示一些代码操作,这样就简化书写,所以学习正则表达式就是在学习一些特殊符号的使用。
好处:可以简化对字符串的复杂操作
弊端:符号定义越多,正则越长,阅读性越差
主要包含四个功能:
1、匹配:String matches方法,用规则匹配整个字符串,只要有一处不符合,就匹配结束,返回false
2、切割:按照叠词完成切割,为了可以让规则的结果可以被重用,可以将规则封装成一个组,用()完成,组的出现都有编号,从一开始,想要使用已有的组可以通过\n(n就是租的编号)如:“(.)\\1+” ------按照任意多的叠词切
3、替换:String replaceAll()
将重叠的字符替换成单个字符,$获取组的元素!
4、 获取:将字符串中符合规则的子串取出
操作步骤:
A、将正则表达式封装成对象
B、让正则对象和要操作的字符串相关联
C、关联后,获取正则匹配引擎
D、通过引擎对符合规则的子串进行操作,比如取出
【规则】
1:字符类
[abc]:表示出现a,b或c中的任意一个。
[^abc]:表示除了a,b,c以外的字符。
[a-zA-Z]:包括了26个英文字母,不论是大写还是小写。
[0-9]:包括了0-9这10个数字字符。
2:预定义字符类
. 任意字符
\d 数字[0-9]
\D 非数字[^0-9]
\w 单词字符:[a-zA-Z_0-9]
\W 非单词字符:[^\w]
3:边界匹配器
^行的开头
$ 行的结尾
\b 单词边界
4:Greedy 数量词
x? 0次或1次
x* 0次或多次
x+ 1次或多次
x{n} 恰好n次
x{n,} 至少n次
x{m,n} 至少m次,但不能超过n次
【正则表达式应用】
1、获取
import java.util.regex.*;
class RegexDemo2
{
public static void main(String[] args)
{
getDemo();
}
public static void getDemo()
{
String str="ni hao ma ye xu ceng jing de ni yao hao yi xie !";
System.out.println(str);
String regex="\\b[a-zA-Z]{3}\\b";
Pattern p=Pattern.compile(regex);//将正则表达式封装成对象
Matcher m=p.matcher(str);//将正则对象和要操作的字符串相关联
while(m.find())
{
System.out.println(m.group());
System.out.println(m.start()+"----"+m.end());
}
}
}
2、检验QQ号:
class RegexDemo
{
public static void main(String[] args)
{
checkQQ();
}
public static void checkQQ()
{
String qq="534946o910";
String regex="[1-9][0-9]{4,14}";
boolean flag=qq.matches(regex);
if(flag)
{
System.out.println("qq="+qq+" is ok!");
}
else
{
System.out.println("您所输入的qq:"+qq+"不合法");
}
}
}
3、我要学编程
将下列字符串转成:我要学编程
到底用四种功能中的哪一个呢?或者哪几个呢?
思路方式:
1、如果只想知道该字符串是对是错,使用匹配
2、想要将已有的字符串变成另一个字符串,替换
3、想要按照自定的方式将字符串变成多个字符串,切割,获取规则以外的子串
4、想要拿到符合需求的字符串子串,获取,获取符合规则的子串
class RegexTest1
{
public static void main(String[] args)
{
test_1();
}
public static void test_1()
{
String str="我我......要要要要......学学...编编编编编编...程程";
String regex="\\.+";
str=str.replaceAll(regex,"");
str=str.replaceAll("(.)\\1+","$1");
System.out.println(str);
}
}
4、网页爬虫蜘蛛获取网页邮箱地址
import java.io.*;
import java.util.regex.*;
import java.net.*;
import java.util.*;
class RegexTest2
{
public static void main(String[] args) throws Exception
{
getMails_1();
}
public static void getMails_1()throws Exception
{
URL url = new URL("http://192.168.1.254:8080/myweb/mail.html");
URLConnection conn = url.openConnection();
BufferedReaded bufIn = new BufferedReader(new InputStreamReader(conn.getInputStream()));
String line = null;
String mailreg = "\\w+@\\w+(\\.\\w+)+";
Pattern p = Pattern.compile(mailreg);
while((line=bufIn.readLine())!=null)
{
Matcher m = p.matcher(line);
while(m.find())
{
System.out.println(m.group());
}
}
}
【小结】:
提供更强大的字符串处理能力,测试字符串内的模式,例如,可以测试输入字符串,以查看字符串内是否出现电话号码模式或身份证号码模式。即数据验证替换文本可以使用正则表达式来识别文档中的特定文本,完全删除该文本或者用其他文本替换它。