正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。
给定一个正则表达式和另一个字符串,我们可以达到如下的目的:
1. 给定的字符串是否符合正则表达式的过滤逻辑(称作“匹配”);
2. 可以通过正则表达式,从字符串中获取我们想要的特定部分。
正则表达式的特点是:
1. 灵活性、逻辑性和功能性非常的强;
2. 可以迅速地用极简单的方式达到字符串的复杂控制。
3. 对于刚接触的人来说,比较晦涩难懂。
由于正则表达式主要应用对象是文本,因此它在各种文本编辑器场合都有应用,小到著名编辑器EditPlus,大到Microsoft Word、Visual Studio等大型编辑器,都可以使用正则表达式来处理文本内容。
作用:专门操作字符串,简单便捷;
好处:可以简化对字符串的复杂操作;
弊端:符号定义越多,正则越长,阅读性越差。
正则表达式中一些常见符号的用法:
[bcd]:表示字符串第一个字符时能是b或c或d,且只能有一个字符 。
\d 代表数字0-9 , ?表0次或1次, *代表0次或多次 ,+表示 一次或多次。
具体操作功能:
* 1.匹配 :String matches方法 ,用规则匹配整个字符串,只要有一次不匹配就结束;
需求:对QQ号码校验,要求5~15位,0不能开头,只能是数字,实例代码如下:
2.切割:
String reg = " +"; //按照多个空格来切割
String reg = "\\."; //用.切割
String reg = "(.)\\1+"; //按照叠词切割,为了让规则的结果被重用,将规则封装成一个组,用()完成,组的出现都有编号,从1开始,要想使用已有的组,通过\n(n就是组的编号)的形式获取.
实例代码如下:
3.替换 replaceAll();
sdkaj#dsflk#
sdhjol
4.正则表达式的获取功能,表示获取字符串中特定规则的子串
代码实现如下:
tong
7......11
正则表达式会有很多实际的用途,可以校验IP地址和邮箱名,下面是两个练习,巩固正则表达式的应用。
需求1:将ip地址进行地址段顺序的排序
IP地址: 192.168.1.34 102.67.46.1 45.78.1.0 35.156.229.56
还按照字符串自然顺序,只要让它们每一段都是3位即可
思路:1.按照每一段需要的最多的0补齐,那么每一段就会至少保证有3位;
2.将每一段只保留3位,这样所有ip地址每一段都是3位。
需求2:对邮箱地址校验。程序实现如下:
35.156.229.56
45.78.1.0
102.67.46.1
192.168.1.34
true
正则表达式的一个重要应用就是制作爬虫工具,在指定的文本或者网页上获取想要的信息,有些黑客的感觉哈哈,程序实现如下:
作用:专门操作字符串,简单便捷;
好处:可以简化对字符串的复杂操作;
弊端:符号定义越多,正则越长,阅读性越差。
正则表达式中一些常见符号的用法:
[bcd]:表示字符串第一个字符时能是b或c或d,且只能有一个字符 。
\d 代表数字0-9 , ?表0次或1次, *代表0次或多次 ,+表示 一次或多次。
具体操作功能:
* 1.匹配 :String matches方法 ,用规则匹配整个字符串,只要有一次不匹配就结束;
需求:对QQ号码校验,要求5~15位,0不能开头,只能是数字,实例代码如下:
public class RegexDemo {
public static void main(String[] args) {
checkQQ();
<span style="font-family:Microsoft YaHei;"> }</span>
public static void checkQQ()
{
String qq="32430";
String Regex = "[1-9][0-9]{4,14}"; //第一位是1-9,第二位是0-9,控制在4-14个
//String Regex = "[1-9]\\d{4,14}";
boolean flag = qq.matches(Regex);
if(flag)
System.out.println(qq+"合法");
else
System.out.println(qq+"不合法");
}
}
2.切割:
String reg = " +"; //按照多个空格来切割
String reg = "\\."; //用.切割
String reg = "(.)\\1+"; //按照叠词切割,为了让规则的结果被重用,将规则封装成一个组,用()完成,组的出现都有编号,从1开始,要想使用已有的组,通过\n(n就是组的编号)的形式获取.
实例代码如下:
public class RegexDemo {
public static void main(String[] args) {
spiltDemo( "xiaoming xiaoqiang xiaohong", " +");//按照多个空格来切割
<span style="font-family:Microsoft YaHei;"> }</span>
public static void spiltDemo(String str,String reg)
{
<span style="font-family:Microsoft YaHei;"></span>
String [] arr = str.split(reg);
System.out.println(arr.length);
for (String s: arr)
{
System.out.println(s);
}
}
<span style="font-family:Microsoft YaHei;">}</span>
3.替换 replaceAll();
public class RegexDemo {
public static void main(String[] args) {
String str1= "sdkaj234567dsflk5678";
String regex1 ="\\d{1,}";
String replacement1 = "#"; //将字符串中数字替换成#
replaceAllDemo(str1, regex1, replacement1);
String str2= "sdhhhjollll";
String regex2 ="(.)\\1+"; //.代表任意字符
String replacement2 = "$1"; //重复的字符替换成单个字符 hhh-->h
replaceAllDemo(str2,regex2,replacement2);
}
public static void replaceAllDemo(String str, String regex, String replacement) //替换方法
{
str = str.replaceAll(regex, replacement);
System.out.println(str);
}
<span style="font-family:Microsoft YaHei;">}</span>
程序运行结果:
sdkaj#dsflk#
sdhjol
4.正则表达式的获取功能,表示获取字符串中特定规则的子串
代码实现如下:
import java.util.regex.*;
public class RegexDemo2 {
public static void main(String[] args) {
getDemo();
}
public static void getDemo()
{
String str = "wo yao tong zhi shi jie ";
String reg = "\\b[a-z]{4}\\b"; //获取连续四个字符组成的单词,\\b表示单词边界
Pattern p = Pattern.compile(reg); //将规则封装成对象
Matcher m = p.matcher(str) ; //让正则对象和要作用的字符串相关联,获取匹配器对象
while (m.find()) //将规则作用到字符串上,并进行符合规则的子串查找
{
System.out.println(m.group()); //获取匹配后结果
System.out.println(m.start()+"......"+m.end());; //获取开始和结束的角标
}
}
}
程序运行结果:
tong
7......11
正则表达式会有很多实际的用途,可以校验IP地址和邮箱名,下面是两个练习,巩固正则表达式的应用。
需求1:将ip地址进行地址段顺序的排序
IP地址: 192.168.1.34 102.67.46.1 45.78.1.0 35.156.229.56
还按照字符串自然顺序,只要让它们每一段都是3位即可
思路:1.按照每一段需要的最多的0补齐,那么每一段就会至少保证有3位;
2.将每一段只保留3位,这样所有ip地址每一段都是3位。
需求2:对邮箱地址校验。程序实现如下:
public class RegexTest {
public static void main(String[] args) {
<span style="font-family:Microsoft YaHei;"> </span> ipsort();
checkMail();
}
public static void ipsort()
{
String ip = "192.168.1.34 102.67.46.1 45.78.1.0 35.156.229.56";
ip = ip.replaceAll("(\\d+)", "00$1"); //将一个或多个数字替换成00加原数字
System.out.println(ip);
ip= ip.replaceAll("0*(\\d{3})","$1"); //将00192等替换成192
System.out.println(ip);
String[] arr = ip.split(" +"); //按空格切割
TreeSet<String> ts = new TreeSet<String>(); //利用TreeSet 按自然顺序排序
for (String s : arr)
{
ts.add(s); //将arr中切割过的字符串添加到ts中
}
for(String s : ts)
{
System.out.println(s.replaceAll("0*(\\d+)","$1")); //将001等还原为1
}
}
/*
* 需求:对邮箱地址校验
* */
public static void checkMail()
{
String mail = "hpu186@163.com.cn";
String reg = "[a-zA-Z0-9_]+@[a-zA-Z0-9]+(\\.[a-zA-Z]+)+"; //精确匹配
// String reg ="\\w+@\\w+(\\.\\w+)+"; //相对粗糙的匹配
System.out.println(mail.matches(reg));
}
}
运行结果:
35.156.229.56
45.78.1.0
102.67.46.1
192.168.1.34
true
正则表达式的一个重要应用就是制作爬虫工具,在指定的文本或者网页上获取想要的信息,有些黑客的感觉哈哈,程序实现如下:
import java.io.*;
import java.net.*;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class RegexText2 {
public static void main(String[] args) throws Exception
{
getMails_1();
getMails_2();
}
public static void getMails_2() throws Exception //获取指定网页中邮箱地址
{
URL url = new URL("http://zhidao.baidu.com/question/518382624466008525.html?fr=iks&word=%D3%CA%CF%E4%C3%FB&ie=gbk");
URLConnection conn = url.openConnection();
BufferedReader bufIn = new BufferedReader(new InputStreamReader(conn.getInputStream()));
String line = null;
String regex ="\\w+@\\w+(\\.\\w+)+";
Pattern p = Pattern.compile(regex);
while((line =bufIn.readLine())!=null) //每读一行就匹配一次
{
Matcher m = p.matcher(line) ;
while(m.find())
{
System.out.println(m.group());
}
}
bufIn.close();
}
public static void getMails_1() throws Exception //获取指定文件中邮箱地址
{
BufferedReader bufr = new BufferedReader(new FileReader("mail.txt"));
String line = null;
String regex ="\\w+@\\w+(\\.\\w+)+";
Pattern p = Pattern.compile(regex);
while((line =bufr.readLine())!=null) //每读一行就匹配一次
{
Matcher m = p.matcher(line) ;
while(m.find())
{
System.out.println(m.group());
}
}
bufr.close();
}
}