遇到一个正则表达会的问题,暂时未找到理论上的支持,所以先在此记录,待后慢慢解决
public static void main(String [] ben){
System.out.println("12345".replaceAll(".*", "a"));
}
关于这行语句,大家试想下输出会是什么?我一开始分析答案可能是以下两个:
- 答案一:aaaaa
- 答案二:a
因为牵涉到正则表达式的贪婪匹配和非贪婪匹配,查阅资料得知*应该是贪婪匹配,所以我在没有执行上述代码的时候,得出应该是答案二。但是执行后的结果却让人大跌眼镜,是aa.
网上查阅资料无果,只有自己看源码了:
/**
* String的replaceAll方法
**/
public String replaceAll(String regex, String replacement) {
return Pattern.compile(regex).matcher(this).replaceAll(replacement);
}
/**
* Matcher的replaceAll方法
**/
public String replaceAll(String replacement) {
reset();
boolean result = find();
if (result) {
StringBuffer sb = new StringBuffer();
do {
appendReplacement(sb, replacement);
result = find();
} while (result);
appendTail(sb);
return sb.toString();
}
return text.toString();
}
既然执行结果是两个a,那么我猜测是find()有两次执行结果是ture.所以模拟代码
public static void main(String[] ben){
Pattern pattern = Pattern.compile(".*", Pattern.CASE_INSENSITIVE);
Matcher matcher = pattern.matcher("12345");
int i=0;
while(matcher.find()){
System.out.println("循环:"+i+"次");
i++;
System.out.println(matcher.group());
}
}
执行结果为:
循环:0次
12345
循环:1次
也就是说.*先最长匹配了12345,然后又匹配了一个空字符,其实没有能够仔细的分析到代码,所以现在只能猜测,也只有等有能力的时候再仔细分析代码。
猜测过程应该如下:
- 首先从第一个位置开始匹配,*是最长匹配,所以一直匹配到12345成功位置
- 然后再从第六个位置开始匹配,发现第六个位置已经是最后个位置了,此时取出的子匹配串是空的,.*是匹配.0个到多个,也就是0个也是可以满足的,所以这里也匹配成功了
-
匹配结束,总共匹配两次成功!
同样,.+也是贪婪匹配,但是如果使用.+的话,只会循环一次,输出12345,因为上述2过程匹配不会成功。所以我们在使用的时候,要谨慎使用*这个匹配符。
在寻找答案的过程中,发现一篇好文章,虽然对于解答此文的疑问用处不大:
来自淘宝综合业务部门的技术博客:Java正则引发的思考。