今天用印象笔记导我的一些笔记(txt的,我的系统是windows),发现标题都是txt的第一行,而且还有的是乱码。据说只有MAC下的印象笔记才有以txt文件名为标题的功能,我的心情就像我家门前的那条小河一样很难过……我决定对文本处理一下。
之所以遇到乱码问题,是因为有的txt是gbk的,有的是UTF-8的(我随手记的东西,有的是用安卓dropbox写的,有的是windows notepad写的,还有linux 下用gedit写的,所以都用的默认编码),可以说这堆破玩儿意堆得很我们那破寝室外面垃圾桶里的垃圾一样杂乱无章。所以必须能识别文本是什么编码才行。
UTF-8中文是3字节的,GBK中文是2字节的(在UE下的hex模式就能看出,按ctrl+h),有的UTF-8会用EF BB BF 来标明这个是UTF-8的文件,我考虑实用,用如下语句测试:
1
FileInputStream fileInputStream=new FileInputStream(file);
2
InputStreamReader inputStreamReader=new InputStreamReader(fileInputStream,"GB2312" );
3
BufferedReader bufferedReader=new BufferedReader(inputStreamReader);
4
String line =bufferedReader.readLine();
5
System. out.println(java.nio.charset.Charset. forName("GB2312"