原始文件内容是这样的:
1000|1.0.0
313|20140814|2
银行流水号|银行交易时间|交易日期|银行虚拟账号|银行账号|银行账号类型|姓名|性别|证件类型|证件号码|证件有效期限|电话|邮箱|省|
市|区|详细地址|客户风险等级|第三方产品代码
31301201408140000002802313000000|20140814101832|20140814|00000000002014081200000000000355|6216920000065381|01|000|0|00|
371321198812266128|20150202|15811111111|abc@gmail.com||11|||8|000888
我们将其另存为UTF-8格式,并用如下java代码读取文件
package com.szkingdom.leejun;
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.util.Arrays;
public class FileBomTest {
public static void main(String[] args) throws IOException {
File file = new File("F:\\haha.txt");
FileInputStream fileInputStream=new FileInputStream(file);
byte[] b=new byte[1024];
byte[] B=new byte[0];
int read =-1;
while ((read=fileInputStream.read(b))>-1) {
int i=B.length;
B=Arrays.copyOf(B, B.length+read);
for(int j=0;j<read;j++){
B[i+j]=b[j];
}
}
System.out.println(new String(B,"UTF-8"));
}
}
这时候控制台上显示是这样的:
?1000|1.0.0
313|20140814|2
银行流水号|银行交易时间|交易日期|银行虚拟账号|银行账号|银行账号类型|姓名|性别|证件类型|证件号码|证件有效期限|电话|邮箱|省|市|区|详细地址|客户风险等级|第三方产品代码
31301201408140000002802313000000|20140814101832|20140814|00000000002014081200000000000355|6216920000065381|01|000|0|00|371321198812266128|20150202|15811111111|abc@gmail.com||11|||8|000888
在最前面多了一个?号这是为什么。原因其实很简单,当我们再windows下另存为时windows给UTF-8添加了BOM头。导致了读取异常的现象。我们用16进制打开文件可以看到:EF BB BF 这几个前缀。既然知道出现?号的原理了,那么我们只需要判断是否有该前缀,若有则跳过相应的字符就行了。或者可以用外部工具类读取。