编码格式：UTF-8、Unicode、GBK、ANSI

最新推荐文章于 2021-07-26 19:47:08 发布

AXIMI

最新推荐文章于 2021-07-26 19:47:08 发布

阅读量1.1k

点赞数 1

分类专栏：其他文章标签：编码学

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/AXIMI/article/details/109219813

版权

其他专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文介绍了字符集和编码的区别，重点关注Unicode、UTF-8和GBK编码。Unicode是一个统一的字符集，UTF-8是其编码实现，适用于全球字符。GBK编码主要用于中文，对英文也采用2字节编码。网页编码中，UTF-8能避免跨地域乱码问题，而ANSI编码在不同系统下表示不同，可能导致显示问题。

摘要由CSDN通过智能技术生成

文章目录

字符集和编码
Unicode和UTF-8编码
GBK编码
- 网页编码
ANSI编码

字符集和编码

字符集： Unicode和ASCII都是字符集，字符集为每个字符分配一个唯一的 ID，我们使用到的所有字符在 Unicode 字符集中都有一个唯一的 ID，例如上面例子中的 a 在 Unicode 与 ASCII 中的编码都是 97。
编码规则： 有了字符集后，需要对字符的ID进行编码，utf-8就是一种编码规则。utf-8从1个字节到4个字节不等，英文字符占一个字节，中文字符占3个字节。

Unicode和UTF-8编码

Unicode是一个符号集，规定了符号的二进制代码；而UTF-8是Unicode的实现方式。
UTF-8是国际化标准文字编码，包含全世界所有国家需要用到的字符，不同的语言用到的字节数不同。
英文1个字节，中文三个字节。

GBK编码

用于解决中文编码，包含中文和英文，中文和英文都用2个字节来编码。

UTF-8不同的语言有不同的字节数，一个中文字由三个字节的编码来表示，一个中文由一个字节的编码来表示。

GBK里面不管是中文字还是英文字母，都用2个字节的编码来表示。

网页编码

如果网页是用GBK格式编码的话，一个处于美国或者其他外国地区的人访问网站的时候会显示乱码，他们需要下载额外的中文语言包来支持。

如果网页用utf-8格式编码的话则不会出现这种问题。

ANSI编码

ANSI不是某一种特定的字符编码，在不同的系统中，ANSI会表示不同的编码。美国的电脑系统中ANSI编码是ASCII编码（ASCII编码不能表示汉字，所以汉字为乱码）；中国的电脑中ANSI编码可能会是GBK编码或者UTF-8编码；韩文系统中ANSI编码可能是EUC-KR编码。

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。