为什么会有中文乱码？

最新推荐文章于 2024-08-11 08:47:29 发布

小新要努力变强

最新推荐文章于 2024-08-11 08:47:29 发布

阅读量1.8k

点赞数 3

文章标签： java idea

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_68055637/article/details/128511018

版权

乱码通常发生在编码和解码不匹配时，例如UTF-8与GBK编码的不一致。读取文本文件时，未按完整字节处理中文字符也会导致乱码。要避免乱码，应使用字符流读取文本并确保编码解码过程的一致性。

摘要由CSDN通过智能技术生成

何为乱码

在文件中所看到的字符串是系统把内存中的数据转换成二进制数再解码成一些字符最后显示，就是当你双击打开一个文本文件时系统会把内存的数码信息读取显示出来，当你保存一个文本文件时系统会把这个文件以你所设置的编码方式编码，再放进内存中。

编码方式是什么东西？

编码方式其实是一种计算机的存储规则，常见的字符集有UTF-8，GBK，GB2312。每种字符集都会在它所包含的字符和字节之间建立映射关系。而一个字节就是8个二进制位。所以你也可以把字符集看成是字符和二进制数进行转换的公式或映射表。

一个中文字符以utf-8编码会转成3个byte,如果以gbk编码会转成2个byte;

一个英文字符以utf-8编码会转成1个byte,如果以gbk编码会转成1个byte。

乱码产生原因

原因1.读取数据时未读完整个汉字

我们知道字节流读取数据时，一次只读取一个字节，英文字母只有一个字节存取，所以不会出现乱码，而idea默认的编码规则UTF-8（二进制）对中文的编码是3个字节，读取数据时未读完整个汉字自然会出现乱码。

原因2.编码和解码的方式不统一

如果创建本地文件，而其编码规则是GBK时，GBK的中文是占2个字节，而解码时使用编码规则是UTF-8，两个方式不统一，数据接受不完整会出现乱码

如何避免产生乱码？

1.不要用字节流读取文本文件，针对文本文件使用字符流。

2.编码解码时使用同一个编码方式

小新要努力变强

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
为什么会有中文乱码？

简述中文乱码产生的原因
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。