今天在调java程序时,发现了一件令人“费解”的问题。
我们都知道String的split方法,使用正则表达式来拆分字符串。
如String [] s = "a#b#c".split("#");拆分的数组s[0]=”a”, s[1]=”b”,s[2]=”c”;
但如下面的java 程序:
String str = "0000###"; String result[] = str.split("#"); System.out.println("result.lengh = "+result.length); |
上面result字符串的长度是多少呢?
一开始我认为:
result的长度为4, result[0]=””, result[1]=””, result[2]=””, result[4]=””。
但是事实上,result的长度此时为1,也就是说result数组只有一个元素。调用result[1]就会报出数组越界异常。
为什么会这样呢?改变str值看看。
A. String str = "0000#1##";
result长度为2。result[0]=”0000”, result[1]=”1”。
B. String str = "0000##1#";
Result长度为3。result[0]=”0000”, result[1]=””, result[2]=”1” 。
C. String str = "0000###1";
Result长度为4。result[0]=”0000”, result[1]=””, result[2]=””,result[3]=”1” 。
为了了解究竟,我查看了java api文档。
public String[] split(String regex)
根据给定的正则表达式的匹配来拆分此字符串。
该方法的作用就像是使用给定的表达式和限制参数 0 来调用两参数 split 方法。因此,结果数组中不包括结尾空字符串。
关键点就在于:结果数组中不包括结尾空字符串。
对比以上代码,我们可知: 匹配拆分后返回的数组中不包含以空串结尾的元素。
这恰恰与我开始时的理解相反。
再看看public String[] split(String regex, int limit)方法。api文档讲解如下:
根据匹配给定的正则表达式来拆分此字符串。
此方法返回的数组包含此字符串的每个子字符串,这些子字符串由另一个匹配给定的表达式的子字符串终止或由字符串结束来终止。数组中的子字符串按它们在此字符串中的顺序排列。如果表达式不匹配输入的任何部分,则结果数组只具有一个元素,即此字符串。
limit 参数控制模式应用的次数,因此影响结果数组的长度。如果该限制 n 大于 0,则模式将被最多应用 n - 1 次,数组的长度将不会大于 n,而且数组的最后项将包含超出最后匹配的定界符的所有输入。如果 n 为非正,则模式将被应用尽可能多的次数,而且数组可以是任意长度。如果 n 为零,则模式将被应用尽可能多的次数,数组可有任何长度,并且结尾空字符串将被丢弃。
例如,字符串 "boo:and:foo" 使用这些参数可生成下列结果:
Regex | Limit | 结果 |
: | 2 | { "boo", "and:foo" } |
: | 5 | { "boo", "and", "foo" } |
: | -2 | { "boo", "and", "foo" } |
o | 5 | { "b", "", ":and:f", "", "" } |
o | -2 | { "b", "", ":and:f", "", "" } |
o | 0 | { "b", "", ":and:f" } |
现在我们知道:
l split(String regex)的结果数组中不包括结尾空字符串;
l split(String regex, int limit)中limit 参数控制模式应用的次数,以此影响结果数组的长度。
阿烈aleco 2009-3-12