utf-8 和 gbk 的字符与字节

2302_77470048

已于 2023-07-14 09:30:31 修改

阅读量417

点赞数

文章标签： java

于 2023-07-14 09:20:30 首次发布

本文链接：https://blog.csdn.net/2302_77470048/article/details/131716150

版权

在utf-8中一个英文字母需要一个字节即两个字符，一个中文等于三个字节即六个字符

在gbk中一个英文字母需要一个字节即两个字符，一个中文等于两个字节即四个字符

其次还要知道一点常识，就是我们在记事本等一些文本工具中写的都是字符，没有谁会去写字节（可以写字节，但是要用具特殊的编辑器），但是其实，我们的写的是字符，但磁盘上真实存储的是字节。

这里就出现了转换的问题，当然，这些问题记事本本身会帮助我们解决。我们打开一个记事本，然后文件--另存为，你会发现有几种存储格式供您选择，
ANSI格式：就是ascii的格式
Unicode格式：采用国际通用的编码存储
Unicode big endian格式：这个和unicode有点区别，但我也不明太具体的不同
UTF-8：采用utf-8存储，看过上面的两篇文章，你会十分的了解这里介绍的编码。Utf-8，是unicode的一种实现方式。

例如我们在记事本里面输入“连通”两个字。

1.我们另存记事本的时候，采用unicode存储，那么虽然我们看到的字符还是“连通”，但是其实存储在磁盘上的字节却是8FDE（连） 901A （通），这个是规定的，unicode是国际上规定的，给世界上的每个字符分配的唯一编码。获取某个字符的unicode的方法，可以去网上查找，最简单的方法，就是打开word文档，输入字符，把光标移动到字符后面，按alt+x，word会自动把字符转换成unicode编码，这里呢我们也可以看到，用unicode存储汉字啊，每个汉字占用两个字节。

2.我们另存记事本的时候，采用utf-8存储，虽然我们看到的字符还是“连通”，但是其实存储在磁盘上的字节确实已经变化了，这时候存储的是
E8 BF 9E （连）E9 80 9A（通）。这就是utf-8的存储的编码，至于utf-8为什么这样存储，你可以阅读上面的两篇文章来了解，可以看到，utf-8使用3个字节存储一个汉字。

另外我们还要知道的就是：电脑怎么区分一个记事本是用什么存储的呢？
换句话说，为什么我用unicode存储的8FDE（连） 901A （通），电脑就知道这是unicode编码，从而使用unicode解码，还原为“连通”呢？电脑又怎么知道E8 BF 9E （连）E9 80 9A（通）这是按照utf-8的存储方式存储的呢？

这里有一点标记，就是在存储字节的时候，记事本首先在最前面标明，这个记事本下面的存储格式是utf-8，还是unicode。

例如，

1.unicode存储“连通”。磁盘字节真实存储的其实是：

FF FE 8FDE 901A

前两个FF FE是标记，告诉电脑，这个文档的存储方式是unicode

2.utf-8存储“连通”。磁盘字节真实存储的其实是：

EF BB BF E8 BF 9E E9 80 9A

前三个EF BB BF 告诉电脑这个文档是utf-8存储的

一步一个脚印，方便自己复习，该出手时就出手，有错误，一定要指正，非常感谢，共同进步！

gjava中字符与字节的编码关系 - lovebeauty - 博客园