UTF-8编码-将字符串写入文件，当字符串中包含中文时，出现写入文件的数据残缺，而当不包含中文时，写入文件的数据正常

本文链接：https://blog.csdn.net/qq_22158021/article/details/76998097

场景：（UTF-8编码）将字符串写入文件，当字符串中包含中文时，出现写入文件的数据残缺，而当不包含中文时，写入文件的数据正常。示例：
写入文件的代码：
File txt=new File(url);
if(!txt.exists()){
txt.createNewFile();
}
byte bytes[]=new byte[1024];
bytes=str.getBytes("UTF-8");
int b=str.length();
FileOutputStream fos=new FileOutputStream(txt,true);
fos.write(bytes,0,b);

fos.close();

示例结果：

String str = "fadsfdsf212"; 写入文件内容：fadsfdsf212
String str = "4564大地方122321"; 写入文件内容：4564大地方

分析：

存在问题的原因在于，计算字符串的长度时，一个中文长度只算成1，而实际上以UTF-8编码的中文占3个字节，所以实际由str.length()得到的b的值小于实际字节数，导致出现数据写入残缺的情况。

解决方法：
思路：计算正确的字节数。
首先是获取到字符串中的中文的个数count，由于每个中文占3个字节，而上述str.length()的方式只把中文按一个字节计算，即每个中文少计算了2个字节，则实际的字节数应该等于str.length()+count*2。
代码修改如下：
String regex = "[\u4e00-\u9fff]";
int count = (" " + str + " ").split (regex).length - 1; //匹配字符串中的中文个数
File txt=new File(url);
if(!txt.exists()){
txt.createNewFile();
}
byte bytes[]=new byte[1024];
bytes=str.getBytes("UTF-8");
int b=str.length()+count*2; //补上漏算的字节数
FileOutputStream fos=new FileOutputStream(txt,true); //true表示将字符串追加在文件原有内容后面
fos.write(bytes,0,b);