什么是乱码
当中文被读取成无法识别的字符时被称为乱码
造成乱码的根本原因
文件在保存时是有编码格式的,只有当保存时
使用的编码格式与读取时
使用的编码格式相同时才能正确读取文件;例如UTF-8编码、GBK编码都可以读取中文,那么如果采用UTF-8编码保存文件,但是采用GBK编码读取文件就会造成乱码,因此UTF-8编码保存的文件应该使用UTF-8编码读取;
文件的编码格式包括:UTF-8编码、GBK编码、ANSI 编码、GB2312编码
编码格式的识别
当文件上传时如果无法确定文件的编码方式,就无法采用正确的编码格式解析文件,因此需要判断文件的编码格式
可以通过第三方jar包识别文件的编码格式,然后根据获取的编码格式解析文件,获取文件中的数据
自动识别文件编码格式可参考:
https://download.csdn.net/download/tjj3027/10400639
编码格式的转换
当我们通过第三方jar包识别文件的编码后,正确获取文件中的数据后,可以生成指定编码格式的文件