java中的split函数对于字符串操作有时很有用,但由于效率问题,大家都是望而却步。下面看看常用的split方法:
1)String.split函数
2)使用StringTokenizer进行
3)使用org.apache.commons.lang.StringUtils.split 函数
测试代码:
public class splitTest {
private static final String SPLITSTR = " ";
public static String generateStr(int words) {
StringBuilder sb = new StringBuilder(words * (" String".length()) + 1);
for (int i = 0; i < words; i++) {
sb.append(" String");
}
return sb.toString();
}
public static long orginalsplitperformance(String str) {
long begin = System.nanoTime();
for (int i = 0; i < 100000; i++) {
@SuppressWarnings("unused")
List<String> list = Arrays.asList(str.split(SPLITSTR));
}
long end = System.nanoTime();
return end - begin;
}
public static long strtokensplitperformance(String str) {
long begin = System.nanoTime();
for (int i = 0; i < 100000; i++) {
StringTokenizer token = new StringTokenizer(str, SPLITSTR);
List<String> list = new ArrayList<String>();
while (token.hasMoreTokens())
list.add(token.nextToken());
}
long end = System.nanoTime();
return end - begin;
}
public static long apachesplitformance(String str) {
long begin = System.nanoTime();
for (int i = 0; i < 100000; i++) {
@SuppressWarnings("unused")
List<String> list = Arrays.asList(StringUtils.split(str, SPLITSTR));
}
long end = System.nanoTime();
return end - begin;
}
public static void main(String[] args) {
String str = " Swift集成了 现代编程语言思想,以及A pple工程文化的 智慧。编译器是按照 性能优化的,而语言是为开发优化的,无需互相折中。(by gashero)可以从 开 始 学起并过渡到整个系统。所有这 些使得Swift成为Apple软件开发者创新的源泉。";
System.out.println(orginalsplitperformance(str));
System.out.println(strtokensplitperformance(str));
System.out.println(apachesplitformance(str));
}
一次运行结果:
265431698
227020193
128523573
究其原因,String.split函数使用的事正则表达式,所以效率比较低。StringTokenizer方法在构造中进行了处理,减少了时间消耗。而apache的StringUtils.split(string,char)直接code,效率最高。我们还可以对中间结果进行缓存进行性能改进,或者对于使用正则表达式的,可以对正则进行一次
编译,多次使用。
当然我们测试时间可能受别的因素的影响不是十分的准确,如果要得到公正的结果可以采用 jmh library。但是这些足以说明问题。