【问题重现】
接收到的数据为汉字和字母混合数据,有个别的“�”乱码。
【问题原因】
1)编码格式转换有问题。
经过检查,服务器发送数据使用的是UTF-8格式,android端接收数据也使用的是UTF-8格式来转码。
2)数据过大时,分包接收数据,然后转码。2个分包分别将一个汉字的2个字节分开存储。然后每次一个分包进行转码,汉字的一个字节无法识别,转码后表现为乱码。
所以乱码多数出现在每一个接收包的开头和结尾。具体分析过程如下图:
【问题解决】
一次性接收到所有数据,把每个包的字节拼接在一起,然后统一转为字符串。
private int DEFAULTSIZE = 1024 * 64;
private InputStreamReader isr;
DataInputStream inputData = new DataInputStream(mSocket.getInputStream());
isr = new InputStreamReader(inputData, "UTF-8");
int count = 0;
char[] buf = new char[DEFAULTSIZE];
StringBuffer sb = new StringBuffer();
while ((count = isr.read(buf, 0, buf.length)) > -1) {
sb.append(buf, 0, count);
if (count < DEFAULTSIZE) {
break;
}
}
String tempStr = sb.toString();
此时,tempStr为接受到的完整的字符串。且,没有乱码。
【问题总结】
字符编码,一般通过子类转换流来完成:InputStreamReader OutputStreamWriter.
如以下例子,若读写的编码不一致(例子中都是UTF-8编码方式),则会出现乱码:
package test;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
public class test2 {
public static void main(String[] args) throws IOException {
writeText();
readText();
}
public static void readText() throws IOException{
InputStreamReader isr = new InputStreamReader(new FileInputStream("a.txt"), "UTF-8");
char[] buf = new char[20];
int len = isr.read(buf);
String str = new String(buf, 0, len);
System.out.println(str);
isr.close();
}
public static void writeText() throws IOException{
OutputStreamWriter osw = new OutputStreamWriter(new FileOutputStream("a.txt"),"UTF-8");
osw.write("你好,hello world!");
osw.close();
}
}