最近在做文本的shingles时,遇到了一个问题,希望把每个句子按照5个字符一组进行map,因此碰到了字符串分割的问题,这里罗列三种方法;
split;
substring;
StringTokenize
上网调查了一下,StringTokenize性能最优,substring其次,split最差。但是!请看其介绍
StringTokenizer 有三个构造方法
StringTokenizer(String str) ,StringTokenizer(String str, String delim) ,StringTokenizer(String str, String delim, booleareturnDelims)
从其构造可以看出,其构造方法单一,这意味着我们只能指定特定的分隔符进行分割,而不能按照我本来的意愿进行操作,
所以还是选择substring方法。