一、正则表达式
正则表达式可以用一些规定的字符来制定规则,并用来校验数据格式的合法性。
Java中的正则表达式规则:
1、字符类(默认匹配一个字符)
[abc] | 只能是a,b或c |
[^abc] | 除了a,b,c之外的任何字符 |
[a-zA-Z] | a到z A到Z |
[a-d[m-p]] | a到d,或m到p |
[a-z&&[def]] | d,e,f(交集) |
[a-z&&[^bc]] | a到z,除了b和c |
[a-z&&[^m-p]] | a到z,除了m到p |
2、预定义的字符类(默认匹配一个字符)
. | 任何字符 |
\d | 一个数字[0-9] |
\D | 非数字[^0-9] |
\s | 一个空白字符 |
\S | 非空白字符 |
\w | 英文、数字、下划线 |
\W | [^\w]一个非单词字符 |
3、量词(配合匹配多个字符)
X? | 零次或一次 |
X* | 零次或多次 |
X+ | 一次或多次 |
X{n} | 正好n次 |
X{n,} | 至少n次 |
X{n,m} | 至少n次但不超过m次 |
4、匹配一些特殊字符
" | \" |
' | ' |
+ | \\+ |
- | \\- |
( | \\( |
[ | \\[ |
\ | \\\\ |
| | \\| |
/ | \\/ |
另外,String类提供了匹配正则表达式规则的API:
public boolean matches(String regex):判断是否匹配正则表达式
接下来我们举一个例子:
我们要接收的字符串是这样的类型:“喜欢”(2)|“不喜欢”(0)|“无所谓”(1),其中用双引号括起来的文字部分是一个投票选项,长度不超过 5,其中不 允许出现空格;用括号括起来的数字是投票选项对应的分数,可以是正整数、0。双引号括起来的文字部分是一次投票活动的一个投票选项,后面紧接着跟的括号里面的数字是这个投票选项对应的分数。每个投票选项和对应的分数与下一个要用|分隔开,具体代码如下:
public static void check() {
Scanner sc = new Scanner(System.in);
while(true) {
System.out.println("请输入投票类型");
String str = sc.next();
String regex = "(\"[\u4e00-\u9fa5]{1,5}\"\\(\\d\\)\\|)*\"[\u4e00-\uu9fa5]{1,5}\"\\(\\d\\)";//构造正则表达式规则
if(str.matches(regex)) {
System.out.println("输入正确");
break;
}
else {
System.out.println("格式错误,请重新输入");
}
}
}
运行结果如下:
二、从正则表达式中爬取信息
我们有时需要从正则表达式中获取一些信息,以上面的例子为例,输入一次投票活动的全部选项及其对应的分值,“喜欢”(2)|“不喜欢”(0)|“无所谓”(1),我们希望可以从中分别提取出投票选项和分值,具体代码如下:
public static void fetch() {
String str = "\"喜欢\"(2)|\"不喜欢\"(1)|\"无所谓\"(0)";
//定义爬取规则
String regex1 = "[\u4e00-\\u9fa5]{1,5}";
//编译正则表达式成为一个匹配的对象
Pattern pattern1 = Pattern.compile(regex1);
//通过匹配规则对象得到一个匹配数据内容的匹配器对象
Matcher matcher1 = pattern1.matcher(str);
//通过匹配器去内容中爬取信息
while(matcher1.find()) {
System.out.println(matcher1.group());
}
}
运行结果如图:
从正则表达式中获取分值的操作和上面类似。