Day24-网络编程&正则表达式
1. 网络编程
1.1 概述
Java是 Internet 上的语言,它从语言级上提供了对网络应用程 序的支持,程序员能够很容易开发常见的网络应用程序。
Java提供的网络类库,可以实现无痛的网络连接,联网的底层 细节被隐藏在 Java 的本机安装系统里,由 JVM 进行控制。并 且 Java 实现了一个跨平台的网络库,程序员面对的是一个统一 的网络编程环境。
1.2 网络基础
计算机网络:
把分布在不同地理区域的计算机与专门的外部设备用通信线路互连成一个规 模大、功能强的网络系统,从而使众多的计算机可以方便地互相传递信息、 共享硬件、软件、数据信息等资源。
网络编程的目的:
直接或间接地通过网络协议与其它计算机实现数据交换,进行通讯。
网络编程中有两个主要的问题:
如何准确地定位网络上一台或多台主机;定位主机上的特定的应用
找到主机后如何可靠高效地进行数据传输
1.3 网络通信
通信双方地址
a)IP
b)端口号
一定的规则(即:网络通信协议。有两套参考模型)
c)OSI参考模型:模型过于理想化,未能在因特网上进行广泛推广
d)TCP/IP参考模型(或TCP/IP协议):事实上的国际标准。
1.3.1 通信要素1: IP地址
IP 地址:InetAddress
唯一的标识 Internet 上的计算机(通信实体)
本地回环地址(hostAddress):127.0.0.1 主机名(hostName):localhost
IP地址分类方式1:IPV4 和 IPV6
IPV4:4个字节组成,4个0-255。大概42亿,30亿都在北美,亚洲4亿。2011年初已经用尽。以点分十进制表示,如192.168.0.1
IPV6:128位(16个字节),写成8个无符号整数,每个整数用四个十六进制位表示, 数之间用冒号(:)分开,如:3ffe:3201:1401:1280:c8ff:fe4d:db39:1984
IP地址分类方式2:公网地址(万维网使用)和私有地址(局域网使用)。192.168. 开头的就是私有址址,范围即为192.168.0.0–192.168.255.255,专门为组织机 构内部使用
特点:不易记忆
1.3.2 通信要素2:端口号
端口号标识正在计算机上运行的进程(程序)
不同的进程有不同的端口号
被规定为一个 16 位的整数 0~65535。
端口分类:
公认端口:0~1023。被预先定义的服务通信占用(如:HTTP占用端口80,FTP占用端口21,Telnet占用端口23)
注册端口:1024~49151。分配给用户进程或应用程序。(如:Tomcat占用端口8080,MySQL占用端口3306,Oracle占用端口1521等)。
动态/私有端口:49152~65535。
端口号与IP地址的组合得出一个网络套接字:Socket。
1.4 OSI七层
应用层,表示层,会话层,传输层,数据链路层,物理层,网络层
应用层 : 应用层是网络向用户提供的服务窗口,主要用来支持用户的需求,人的需求不同,应用层技术也就不同
提供了多种的应用服务 : 电子邮件(MHS),文件传输(FTAM),虚拟终端(VT).电子数据交换(EDI)等
主要的协议 : FTP(21),SMTP(25),DNS.HTTP(80)
表示层 : 为通信提供一种公共的语言,方便交互,因为不同的计算机系统结构使用的数据表示不同,例如 : IBM主机使用的是EBCDIC编码,而大部分PC机使用的是ASCII编码
其他功能例如 数据加密,数据压缩
会话层 : 提供的服务可以使应用建立和维持会话,并且能使会话同步
传输层 : 两天计算机经过网络进行数据通信时,是一个端到端的层次,具有缓冲作用
协议 : TCP/UDP
物理层 : 为数据段设备提供传送数据的通路,数据通路可以是一个物理媒体,也可以 是多个物理媒体连接而成
数据链路层 : 可以理解为数据通道,
MAC地址表示唯一性
网络层 : IP,以IP报文形式进行数据传递
1.5 网络协议
1.5.1 TCP/IP
传输层协议中有两个非常重要的协议:
传输控制协议TCP(Transmission Control Protocol)
用户数据报协议UDP(User Datagram Protocol)。
TCP/IP 以其两个主要协议:传输控制协议(TCP)和网络互联协议(IP)而得名,实际上是一组协议,包括多个具有不同功能且互为关联的协议。
IP(Internet Protocol)协议是网络层的主要协议,支持网间互连的数据通信。
TCP/IP协议模型从更实用的角度出发,形成了高效的四层体系结构,即物理链路层、IP层、传输层和应用层。
rt.jar 下面的 java/net 下面的类,是网络编程的
网络架构 : B/S 和 C/S
B/S : Browser/Server 基于浏览器的,比如网页版淘宝
C/S : Client/Server 基于客户端,比如手机或者淘宝上的APP
TCP :
能重传,不丢包,如果丢失会记录,重新发送,但是不会重复
可靠
有序,顺序不会错,比如给你发送了123,2丢失了,重传,那么你接收到的可能是
1.5.1.2 Socket
利用套接字(Socket)开发网络应用程序早已被广泛的采用,以至于成为事实 上的标准。
网络上具有唯一标识的IP地址和端口号组合在一起才能构成唯一能识别的标 识符套接字。
通信的两端都要有Socket,是两台机器间通信的端点。
网络通信其实就是Socket间的通信。
Socket允许程序把网络连接当成一个流,数据在两个Socket间通过IO传输。
一般主动发起通信的应用程序属客户端,等待通信请求的为服务端。
Socket分类:
流套接字(stream socket):使用TCP提供可依赖的字节流服务数据报套接字(datagram socket):使用UDP提供“尽力而为”的数据报服务
1.5.1.3 常用方法
Socket类的常用构造器:
public Socket(InetAddress address,int port)创建一个流套接字并将其连接到指定IP 地址的指定端口号。
public Socket(String host,int port)创建一个流套接字并将其连接到指定主机上的指定端口号。
Socket类的常用方法:
public InputStream getInputStream()返回此套接字的输入流。可以用于接收网络消息
public OutputStream getOutputStream()返回此套接字的输出流。可以用于发送网络消息
public InetAddress getInetAddress()此套接字连接到的远程 IP 地址;如果套接字是未连接的,则返回 null。
public InetAddress getLocalAddress()获取套接字绑定的本地地址。 即本端的IP地址
public int getPort()此套接字连接到的远程端口号;如果尚未连接套接字,则返回 0。
public int getLocalPort()返回此套接字绑定到的本地端口。 如果尚未绑定套接字,则返回 -1。即本端的 端口号。
public void close()关闭此套接字。套接字被关闭后,便不可在以后的网络连接中使用(即无法重新连接 或重新绑定)。需要创建新的套接字对象。 关闭此套接字也将会关闭该套接字的 InputStream 和 OutputStream。
public void shutdownInput()如果在套接字上调用 shutdownInput() 后从套接字输入流读取内容,则流将 返回EOF(文件结束符)。 即不能在从此套接字的输入流中接收任何数据。
public void shutdownOutput()禁用此套接字的输出流。对于 TCP 套接字,任何以前写入的数据都将被发 送,并且后跟 TCP 的正常连接终止序列。 如果在套接字上调用 shutdownOutput() 后写入套接字输出流, 则该流将抛出 IOException。 即不能通过此套接字的输出流发送任何数据。
1.5.1.4 服务端
服务器程序的工作过程包含以下四个基本的步骤:
调用 ServerSocket(int port) :创建一个服务器端套接字,并绑定到指定端口 上。用于监听客户端的请求。
调用 accept():监听连接请求,如果客户端请求连接,则接受连接,返回通信 套接字对象。
调用 该Socket类对象的 getOutputStream() 和 getInputStream ():获取输出流和输入流,开始网络数据的发送和接收。
关闭ServerSocket和Socket对象:客户端访问结束,关闭通信套接字。
ServerSocket 对象负责等待客户端请求建立套接字连接,类似邮局某个窗口 中的业务员。也就是说,服务器必须事先建立一个等待客户请求建立套接字 连接的ServerSocket对象。
所谓“接收”客户的套接字请求,就是accept()方法会返回一个 Socket 对象
package com._Socket;
import java.io.BufferedReader;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.io.OutputStream;
import java.io.OutputStreamWriter;
import java.io.PrintWriter;
import java.net.ServerSocket;
import java.net.Socket;
/**
* rt.jar 下面的 java/net 下面的类,是网络编程的
*
* 网络架构 : B/S 和 C/S
*
* B/S : Browser/Server 基于浏览器的,比如网页版淘宝
*
* C/S : Client/Server 基于客户端,比如手机或者淘宝上的APP
*
* TCP :
* 能重传,不丢包,如果丢失会记录,重新发送,但是不会重复
* 可靠
* 有序,顺序不会错,比如给你发送了123,2丢失了,重传,那么你接收到的可能是132,但是你看到的一定是123
* 面向链接,如果连接不上去的话,数据不会发送
* 三次握手,可以保证数据的安全性,能够保证交互
* 相当于打电话,打不通的话,数据是传达不过去的
*
* UDP :
* 速度快
* 不保证可靠
* 可能丢包
* 无连接
* 相当于发短信,不管你能不能收到,反正发送给你了
*/
public class _01_TcpServer {
public static void main(String[] args) throws Exception {
test2();
}
public static void test1()throws Exception {
// 1 创建对象并开启端口
ServerSocket ss = new ServerSocket(10001);
System.out.println("服务器已经启动,等待客户端链接......");
// 等待客户端链接,执行到这里线程会停下来,直到客户端链接成功
// 客户端链接之后,会得到该Socket对象
// 可以把这个Socket对象 理解为客户端,包含客户端给你传递的信息等
Socket skt = ss.accept();
System.out.println("客户端已链接...");
// 向客户端返回数据
// 拿到输出流
OutputStream os = skt.getOutputStream();
os.write("你好吗?你吃了吗?".getBytes());
// 先开启的后关闭
os.flush();
os.close();
skt.close();
ss.close();
System.out.println("链接已关闭");
}
// 阻塞式接收和发送
public static void test2()throws Exception {
// 1 创建对象并开启端口
ServerSocket ss = new ServerSocket(10001);
System.out.println("服务器已经启动,等待客户端链接......");
// 等待客户端链接,执行到这里线程会停下来,直到客户端链接成功
// 客户端链接之后,会得到该Socket对象
// 可以把这个Socket对象 理解为客户端,包含客户端给你传递的信息等
Socket skt = ss.accept();
System.out.println("客户端已链接...");
// 向客户端返回数据
// 拿到输出流
OutputStream os = skt.getOutputStream();
// 转换为字符输出,并指定编码为utf-8
OutputStreamWriter osw = new OutputStreamWriter(os,"utf-8");
// 封装缓冲流
PrintWriter bw = new PrintWriter(osw);
// 接收数据 用输入流
InputStream is = skt.getInputStream();
InputStreamReader isr = new InputStreamReader(is,"utf-8");
BufferedReader br = new BufferedReader(isr);
// 读数据
String line = null;
// 阻塞式接收
while ((line = br.readLine()) != null) {
System.out.println("客户端发来信息 : "+line);
bw.println("您给服务端发送的数据 : "+line+" ,我已接收到.");
bw.flush();
}
// 先开启的后关闭
bw.close();
skt.close();
ss.close();
System.out.println("链接已关闭");
}
}
1.5.1.5 客户端
户端Socket的工作过程包含以下四个基本的步骤:
创建 Socket:根据指定服务端的 IP 地址或端口号构造 Socket 类对象。若服务器端响应,则建立客户端到服务器的通信线路。若连接失败,会出现异常。
打开连接到Socket 的输入/出流: 使用 getInputStream()方法获得输入流,使用 getOutputStream()方法获得输出流,进行数据传输
按照一定的协议对Socket 进行读/写操作:通过输入流读取服务器放入线路的信息(但不能读取自己放入线路的信息),通过输出流将信息写入线程。
关闭 Socket:断开客户端到服务器的连接,释放线路
客户端程序可以使用Socket类创建对象,创建的同时会自动向服务器方发起连 接。Socket的构造器是:
Socket(String host,int port)throws UnknownHostException,IOException:向服务器(域名是host。端口号为port)发起TCP连接,若成功,则创建Socket对象,否则抛出异常。
Socket(InetAddress address,int port)throws IOException:根据InetAddress对象所表示的 IP地址以及端口号port发起连接。
客户端建立socketAtClient对象的过程就是向服务器发出套接字连接请求
package com._Socket;
import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.io.OutputStream;
import java.io.OutputStreamWriter;
import java.io.PrintWriter;
import java.net.Socket;
import java.util.Scanner;
public class _02_TcpClient {
public static void main(String[] args) throws Exception{
test2();
}
public static void test1() throws Exception{
// 创建对象,指定IP和端口
Socket socket = new Socket("127.0.0.1", 10001);
// 获取输入流,用于获取服务传递的数据
InputStream is = socket.getInputStream();
// 转换为字符流,并指定编码
InputStreamReader isr = new InputStreamReader(is,"gbk");
// 字符输入缓冲流
BufferedReader br = new BufferedReader(isr);
String tmp = null;
while (( tmp = br.readLine()) != null) {
System.out.println(tmp);
}
br.close();
socket.close();
}
// 阻塞式接收和发送
public static void test2() throws Exception{
// 创建对象,指定IP和端口
Socket skt = new Socket("127.0.0.1", 10001);
// 拿到输出流
OutputStream os = skt.getOutputStream();
// 转换为字符输出,并指定编码为utf-8
OutputStreamWriter osw = new OutputStreamWriter(os,"utf-8");
// 封装缓冲流
PrintWriter bw = new PrintWriter(osw);
// 接收数据 用输入流
InputStream is = skt.getInputStream();
InputStreamReader isr = new InputStreamReader(is,"utf-8");
BufferedReader br = new BufferedReader(isr);
// 控制台输入
Scanner sc = new Scanner(System.in);
// 读取一行数据
String msg = sc.nextLine();
while (true) {
// 发送服务端
bw.println(msg);
bw.flush();
// 接收返回数据
System.out.println(br.readLine());
// 控制台输入
msg = sc.nextLine();
}
}
}
1.5.2 UDP/IP
1.5.2.1 概述
UDP :
速度快
不保证可靠
可能丢包
无连接
相当于发短信,不管你能不能收到,反正发送给你了
类 DatagramSocket 和 DatagramPacket 实现了基于 UDP 协议网络程序。
UDP数据报通过数据报套接字 DatagramSocket 发送和接收,系统不保证UDP数据报一定能够安全送到目的地,也不能确定什么时候可以抵达。
DatagramPacket 对象封装了UDP数据报,在数据报中包含了发送端的IP 地址和端口号以及接收端的IP地址和端口号。
UDP协议中每个数据报都给出了完整的地址信息,因此无须建立发送方和 接收方的连接。如同发快递包裹一样。
1.5.2.2 常用方法
DatagramSocket 类的常用方法
public DatagramSocket(int port)创建数据报套接字并将其绑定到本地主机上的指定端口。套接字将被绑定到通配符地址,IP 地址由内核来选择。
public DatagramSocket(int port,InetAddress laddr)创建数据报套接字,将其绑定到指定的本地地址。 本地端口必须在 0 到 65535 之间(包括两者)。如果 IP 地址为 0.0.0.0,套接字将被绑定到通配符地 址,IP 地址由内核选择。
public void close()关闭此数据报套接字。
public void send(DatagramPacket p)从此套接字发送数据报包。DatagramPacket 包含的信息指示:将要发送的数据、其长度、远程主机的 IP 地址和远程主机的端口号。
public void receive(DatagramPacket p)从此套接字接收数据报包。当此方法返回时,DatagramPacket 的缓冲区填充了接收的数据。数据报包也包含发送方的 IP 地址和发送方机器上的端口号。 此方法 在接收到数据报前一直阻塞。数据报包对象的 length 字段包含所接收信息的长度。如果信息比包的 长度长,该信息将被截短。
public InetAddress getLocalAddress()获取套接字绑定的本地地址。
public int getLocalPort()返回此套接字绑定的本地主机上的端口号。
public InetAddress getInetAddress()返回此套接字连接的地址。如果套接字未连接,则返回null。
public int getPort()返回此套接字的端口。如果套接字未连接,则返回 -1。
DatagramPacket类的常用方法
public DatagramPacket(byte[] buf,int length)构造 DatagramPacket,用来接收长
度为length 的数据包。 length 参数必须小于等于 buf.length。
public DatagramPacket(byte[] buf,int length,InetAddress address,int port)构造数 据报包,用来将长度为 length 的包发送到指定主机上的指定端口号。length 参数必须小于等于buf.length。
public InetAddress getAddress()返回某台机器的 IP 地址,此数据报将要发往该
机器或者是从该机器接收到的。
public int getPort()返回某台远程主机的端口号,此数据报将要发往该主机或 者是从该主机接收到的。
public byte[] getData()返回数据缓冲区。接收到的或将要发送的数据从缓冲区
中的偏移量 offset 处开始,持续length 长度。
public int getLength()返回将要发送或接收到的数据的长度。
1.5.2.3 服务端
流 程:
1.DatagramSocket与DatagramPacket
2.建立发送端,接收端
3.建立数据包
4.调用Socket的发送、接收方法
5.关闭Socket
发送端与接收端是两个独立的运行程序
package com._Socket;
import java.io.ByteArrayInputStream;
import java.io.DataInputStream;
import java.net.DatagramPacket;
import java.net.DatagramSocket;
public class _03_UdpServer {
public static void main(String[] args) throws Exception {
// 打开UDP对象
DatagramSocket ds = new DatagramSocket(10005);
// 声明一个字节数字,用来存放收到的数据
byte[] buf = new byte[1024];
// 包接收器,把接收的数据保存到数组中
DatagramPacket dp = new DatagramPacket(buf, buf.length);
// 阻塞式接收
while (true) {
// 监听接收
ds.receive(dp);
// 字节数字输入流
ByteArrayInputStream bais = new ByteArrayInputStream(buf);
// 转换为数据流
DataInputStream dis = new DataInputStream(bais);
// 读取数据
String msg = dis.readUTF();
// 如果是exit 则结束服务端
if (msg.equalsIgnoreCase("exit")) {
break;
}
System.out.println(msg);
}
}
}
1.5.2.4 客户端
package com._Socket;
import java.io.ByteArrayOutputStream;
import java.io.DataOutputStream;
import java.net.DatagramPacket;
import java.net.DatagramSocket;
import java.net.InetSocketAddress;
import java.util.Scanner;
public class _04_UdpClient {
public static void main(String[] args) throws Exception {
// test01();
test02();
}
// 一次发送
public static void test01() throws Exception {
// 发送的数据
String str = "你好";
// 字节数字输出流
ByteArrayOutputStream baos = new ByteArrayOutputStream();
DataOutputStream dos = new DataOutputStream(baos);
// 写出数据到baos
dos.writeUTF(str);
// 把baos转换为字节数组
byte[] buf = baos.toByteArray();
// 发送数据,大小限制是64K,绑定地址
DatagramPacket dp = new DatagramPacket(buf, buf.length,
new InetSocketAddress("127.0.0.1", 10002));
// 发送,需要通过电脑中一个端口发送出去
DatagramSocket ds = new DatagramSocket(9999);
// DatagramPacket 数据包
// DatagramSocket 通信
ds.send(dp);
ds.close();
}
// 持续发送
public static void test02() throws Exception {
// 发送的数据
String str = null;
Scanner sc = new Scanner(System.in);
System.out.println("请输入需要传递的信息 : ");
// 获取输入的数据
str = sc.nextLine();
while (str != null ) {
// 字节数字输出流
ByteArrayOutputStream baos = new ByteArrayOutputStream();
DataOutputStream dos = new DataOutputStream(baos);
// 写出数据到baos
dos.writeUTF(str);
// 把baos转换为字节数组
byte[] buf = baos.toByteArray();
// 发送数据,大小限制是64K,绑定地址
DatagramPacket dp = new DatagramPacket(buf, buf.length,
new InetSocketAddress("127.0.0.1", 10000));
// 发送,需要通过电脑中一个端口发送出去
DatagramSocket ds = new DatagramSocket(9999);
// DatagramPacket 数据包
// DatagramSocket 通信
ds.send(dp);
ds.close();
// 如果是exit 则退出客户端
if (str.equalsIgnoreCase("exit")) {
break;
}
System.out.println("请输入需要传递的信息 : ");
// 获取输入的数据
str = sc.nextLine();
}
}
}
2 正则表达式
2.1 概述
正则表达式,定义了字符串的模式,可以用来搜索,编辑或处理文本,并不仅限于某一种语言 在任何语言中都有,但是有细微的差别
java中在1.4推出java.util.regex包,为我们提供了java使用正则表达式的应用平台
java中 \ 为转移符 把有意义字符转换为无意义字符
但是在正则表达式中 \ 也是转移符,把有意义字符转换为无意义字符
所以 在java中使用正则表达式中的 \ 的时候 需要使用 两个 \
2.2 java正则表达式语法
Java 源代码的字符串中的反斜线被解释为 Unicode 转义或其他字符转义。因此必须在字符串字面值中使用两个反斜线,表示正则表达式受到保护,不被 Java 字节码编译器解释。例如,当解释为正则表达式时,字符串字面值 “\b” 与单个退格字符匹配,而 “\b” 与单词边界匹配。字符串字面值 “(hello)” 是非法的,将导致编译时错误;要与字符串 (hello) 匹配,必须使用字符串字面值 “\(hello\)”。
(),[],{}的区别
1>. 小括号():匹配小括号内的字符串,可以是一个,也可以是多个,常跟“|”(或)符号搭配使用,是多选结构的
示例1:string name = “way2014”; regex:(way|zgw) result:结果是可以匹配出way的,因为是多选结构,小括号是匹配字符串的
示例2:string text = “123456789”; regex:(0-9) result:结果是什么都匹配不到的,它只匹配字符串"0-9"而不是匹配数字, [0-9]这个字符组才是匹配0-9的数字
2>.中括号[]:匹配字符组内的字符,比如咱们常用的[0-9a-zA-Z.?!]等,在[]内的字符都是字符,不是元字符,比如“0-9”、“a-z”这中间的“-”就是连接符号,表示范围的元字符,如果写成[-!?(]这样的话,就是普通字符
示例1: string text = “1234567890”; regex:[0-9] result:结果是可以匹配出字符串text内的任意数字了,像上边的【或符号“|”在字符组内就是一个普通字符】
示例2:string text = “a|e|s|v”; regex:[a|e|s] result:结果就是匹配字符a、e、s三个字符,这个跟(a|e|s)有区别的,区别就是(a|e|s)匹配的是a、e、s三个字符的随意一个,三个 中的任意一个,这里|是元字符
3>.大括号{}:匹配次数,匹配在它之前表达式匹配出来的元素出现的次数,{n}出现n次、{n,}匹配最少出现n次、{n,m}匹配最少出现n次,最多出现m次
2.3 练习
1 匹配整数和小数
^\d 以数字打头
.匹配任意字符,需要转义 .
? 出现0次或1次
- 出现1到n次
() 把.和\d+ 看做一个整体
^\d+ (.\d+)?
2 匹配电话
^1([358][0-9]|4[579]|66|7[0135678]|9[89])[0-9]{8}$
2.4 java中支持正则表达式的类
在java.util.regex下,有三个正则表达式相关的类
PatternSyntaxException : 正则表达式异常类
Pattern : 正则表达式类,只能做简单操作
Matcher : 支持强大的正则表达式匹配操作
2.4.1 Pattern
2.4.1.1 概述
用于创建一个正则表达式,也可以说创建一个匹配模式,它的构造方法是私有的,不可以直接创建
可以通过Pattern.complie(String regex)创建一个正则表达式
只能做一些简单的匹配操作
使用:
Pattern.split(CharSequence input) ,成员方法, 用于分隔字符串
Pattern.matches (String regex,CharSequence input),静态方法,用于快速匹配字符串,该方法适合用于只匹配一次,且匹配全部字符串。
实际操作中,有时候也是直接使用String中的方法,比如,分割,替换,验证
boolean matches(String regex) 验证
String[] split(String regex) 分割
String replaceAll(String regex,String replacement) 替换
2.4.1.2 使用
package com._Regex;
import java.util.regex.Pattern;
/**
*
* 正则表达式,定义了字符串的模式,可以用来搜索,编辑或处理文本,并不仅限于某一种语言 在任何语言中都有,但是有细微的差别
*
* java中在1.4推出java.util.regex包,为我们提供了java使用正则表达式的应用平台
*
* java中 \ 为转移符 把有意义字符转换为无意义字符
*
* 但是在正则表达式中 \ 也是转移符,把有意义字符转换为无意义字符
*
* 所以 在java中使用正则表达式中的 \ 的时候 需要使用 两个 \\
*
* 常用语法 :
* \ : 转移符
*
* 字符取值范围
* [abc] : 表示可能是a可能是b也可能是c
* [^abc] : 表示不是a,b,c中任意一个
* [0-9] : 表示是0到9任意数字
* [a-zA-Z] : 表示是大小写字母
*
* 简洁字符表示
* . : 匹配任意字符
* \d : 表示数字,等于 [0-9]
* \D : 非数字,等于 [^0-9]
* \s : 表示由空字符组成,等于 [ \t\n\r\x\f]
* \S : 表示由非空字符组成,等于 [^\s]
* \w : 表示字母,数字,下划线,等于 [a-zA-Z0-9_]
* \W : 表示非字母,数字,下划线
*
* 数量表达式
* ? : 表示出现0次或1次
* + : 表示出现1次或多次
* * : 表示出现任意次
* {n} : 表示出现n次
* {n,m} : 表示出现n到m次
* {n,} : 表示出现n次或n次以上
*
* 逻辑相关 :
* XY : 表示X后面跟着Y
* X|Y : 表示X或Y food|fa 匹配food或者fa
* (food|f) | a
*
* ^ : 表示以什么开头
* $ : 表示以什么结尾
*
* 在java.util.regex下,有三个正则表达式相关的类
* PatternSyntaxException : 正则表达式异常类
* Pattern : 正则表达式类,只能做简单操作
* Matcher : 支持强大的正则表达式匹配操作
*
* 实际操作中,有时候也是直接使用String中的方法,比如,分割,替换,验证
* boolean matches(String regex) 验证
* String[] split(String regex) 分割
* String replaceAll(String regex,String replacement) 替换
*/
public class _01_PatternTest {
public static void main(String[] args) {
// test01();
test02();
}
/**
* String[] split(CharSequence input) , Pattern类中的成员方法,用于分割字符串
*/
public static void test01(){
String str = "1.2.3.4.5";
// 创建一个正则表达式对象
// . 匹配任意字符,需要转换为无意义字符
// \.
// 因为在java中 \ 也是转移符,所以 需要加 两个 \\
Pattern pattern = Pattern.compile("\\.");
// 以 . 分割 返回字符串数组
String[] strs = pattern.split(str);
for (String string : strs) {
System.out.println(string);
}
System.out.println("-----");
// String 类中的split方法
String[] strs1 = str.split("\\.");
for (String string : strs1) {
System.out.println(string);
}
}
/**
* Pattern.matches(String regex,CharSequence input) :
*
* 静态方法,返回值是boolean,用于快速匹配字符串,是匹配全部字符串
*/
public static void test02(){
String str = "12345678910";
// 11位数字
String regex = "\\d{11}";
// 全词匹配,就是整个字符串只有11个数字,其他任何都没有
System.out.println(Pattern.matches(regex, str));
// String中的方法,也是全词匹配
System.out.println(str.matches(regex));
}
}
2.4.2 Matcher
2.4.2.1 概述
构造方法也是私有的,不能随意创建,只能通过Pattern.matcher(CharSequence input)方法得到该类的实例 Matcher m = p.matcher(“aaaaab”);
支持便捷强大的正则匹配操作,包括分组、多次匹配支持
三大方法
Matcher.matches():对整个字符串进行匹配,只有整个字符串都匹配了才返回true
Matcher.lookingAt():对前面的字符串进行匹配,只有匹配到的字符串在最前面才返回true
Matcher.find():对字符串进行匹配,匹配到的字符串可以在任何位置
Pattern 是Java中正则表达式引擎
Matcher : 匹配器
三种匹配模式 :
.匹配任何字符, 匹配任意次数
matches : 全词匹配
find : 在任意位置均可 .xxxx .
lookingAt : 从前向后匹配 xxxx.
// 注意 ! 一个matcher对象,和相应的 find/matches/lookingAt 是配对的,
// 不要一起使用同一个matcher对象
// 如果一定要连用,必须重新打开matcher就可以
// 调用相同方法是可以连用的,比如调用多次find方法
2.4.2.2 字符串匹配使用
public static void test01(){
String regexTel = "\\d{11}";
String tel = "13113113111a";
// 引擎对象
Pattern pattern = Pattern.compile(regexTel);
// 匹配器对象
Matcher matcher = pattern.matcher(tel);
// 三种匹配方式
// 全词匹配 false
System.out.println(matcher.matches());
// 注意 ! 一个matcher对象,和相应的 find/matches/lookingAt 是配对的,
// 不要一起使用同一个matcher对象
// 如果一定要连用,必须重新打开matcher就可以
// 调用相同方法是可以连用的,比如调用多次find方法
// 重新创建匹配器对象
matcher = pattern.matcher(tel);
// 从前开始匹配
System.out.println(matcher.lookingAt());
matcher = pattern.matcher(tel);
// 任意位置
System.out.println(matcher.find());
}
2.4.2.3 字符串提取使用
// 提取
public static void test02(){
String regexTel = "((.{2,3})的电话是)(\\d{11})";
String tel = "张三的电话是13113113111李小四的电话是15115115111";
// 引擎对象
Pattern pattern = Pattern.compile(regexTel);
// 匹配器对象
Matcher matcher = pattern.matcher(tel);
// find和group连用 是可以提取数据的
// 可以使用() 进行分组,一个() 就是一组
// 也可以不分组,不分组 就获取匹配到的数据,不能截取数据中的某一部分
// find匹配,如果字符串中有多个符合条件的数据,匹配到第一个就停止
// 想要获取下一个匹配的数据,就要再次调用find方法即可
while (matcher.find()) {
// 0 和无参 是获取匹配到的数据
// 1 就是第一组 2 就是第二组
System.out.println(matcher.group(2) +" : "+matcher.group(3));
// 匹配元素的起始索引
// System.out.println(matcher.start());
// 匹配元素的结束索引
// System.out.println(matcher.end());
}
}
2.4.2.4 叠词匹配去除重复
package com._Regex;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
/**
* 叠词匹配,去除重复
*
*/
public class _03_Test {
public static void main(String[] args) {
// 还原成 我要学编程
String string = "我我我,,,我我,我,我要要要要,,,,,,要要,要学,学学学,学,编编程程程,程程程,,,,,程";
// 1 把逗号 先去掉
string = string.replaceAll(",", "");
// 我我我我我我我要要要要要要要学学学学学编程程程程程程程
// System.out.println(string);
/**
* 使用 find和group 获取数据
*/
// (.) 任意字符组成, \\1 捕获1次 , 叠词, $1 得到1组,取前面的组1次或多次
// \\1 获取前面组中的数据
// (\\d)\\1 : 表示连续出现的数字字符 , 比如 11,22,333,44444
// (\\d)(a)\\1 : 匹配第一个是数字,第二个是a,第三个和第一个是相同的数字 ,比如 1a1 , 2a2, 4a4
// (\\d)(a)\\2 : 匹配第一个是数字,第二个是a,第三个和第二个是相同的 , 比如 1aa , 2aa , 8aa
// 对每个字进行分组
String regex = "(.)(\\1+)";
Pattern pattern = Pattern.compile(regex);
Matcher matcher = pattern.matcher(string);
// System.out.println(matcher.find());
while (matcher.find()) {
// 获取每个字的叠词
// 而 group (1) 就是只要 . ,也就是叠词中只要1个
// 所有 我我我我我我我
System.out.println(matcher.group(0));
// 第一组 我
System.out.println(matcher.group(1));
// 第二组 我我我我我我 比所有的少一个
System.out.println(matcher.group(2));
}
/**
* 还原成 我要学编程
*/
// $1 就等于 group(1)
// $1 等于所有去重.因为$1就是group(1) 而我们这个正则表达式中 第一组 就是叠词中的一个
string = string.replaceAll(regex, "$1");
// $2 就是重复就删一个,因为第二组是叠词中删除一个相同的叠词
// string = string.replaceAll(regex, "$2");
System.out.println(string);
}
}