1.1 split 的坑
前几天在公司对通过 FTP 方式上传的数据文件按照事先规定的格式进行解析后入库,代码的大概实现思路是这样的:先使用流进行文件读取,对文件的每一行数据解析封装成一个个对象,然后进行入库操作。本以为很简单的一个操作,然后写完代码后自己测试发现对文件的每一行进行字符串分割的时候存在问题,在这里做个简单的记录总结。在 Java 中使用 split 方法对字符串进行分割是经常使用的方法,经常在一些文本处理、字符串分割的逻辑中,需要按照一定的分隔符进行分割拆解。这样的功能,大多数情况下我们都会使用 String 中的 split 方法。关于这个方法,稍不注意很容易踩坑。
(1)split 的参数是正则表达式
首先一个常见的问题,就是忘记了 String 的 split 方法的参数不是普通的字符串,而是正则表达式,例如下面的这两种使用方式都达不到我们的预期:
/**
* @author mghio
* @date: 2019-10-13
* @version: 1.0
* @description: Java 字符串 split 踩坑记
* @since JDK 1.8
*/
public class JavaStringSplitTests {
@Test
public void testStringSplitRegexArg() {
System.out.println(Arrays.toString("m.g.h.i.o".split(".")));
System.out.println(Arrays.toString("m|g|h|i|o".split("|")));
}
}
以上代码的结果输出为:
[]
[m, |, g, |, h, |, i, |, o]
上面出错的原因是因为 . 和 | 都是正则表达式,应该用转义字符进行处理:
"m.g.h.i.o".split("\\.")
"m|g|h|i|o".split("\\|")
在 String 类中还有其它的和这个相似的方法,例如:replaceAll。
(2)split 会忽略分割后的空字符串
大多数情况下我们都只会使用带一个参数的 split 方法,但是只带一个参数的 split 方法有个坑:就是此方法只会匹配到最后一个有值的地方,后面的会忽略掉,例如:
/**
* @author mghio
* @date: 2019-10-13
* @version: 1.0
* @description: Java 字符串 split 踩坑记
* @since JDK 1.8
*/
public class JavaStringSplitTests {
@Test
public void testStringSplitSingleArg() {
System.out.println(Arrays.toString("m_g_h_i_o".split("_")));
System.out.println(Arrays.toString("m_g_h_i_o__".split("_")));
System.out.println(Arrays.toString("m__g_h_i_o_".split("_")));
}