编码格式:UTF-8、Unicode、GBK、ANSI

本文介绍了字符集和编码的区别,重点关注Unicode、UTF-8和GBK编码。Unicode是一个统一的字符集,UTF-8是其编码实现,适用于全球字符。GBK编码主要用于中文,对英文也采用2字节编码。网页编码中,UTF-8能避免跨地域乱码问题,而ANSI编码在不同系统下表示不同,可能导致显示问题。
摘要由CSDN通过智能技术生成

字符集和编码

字符集: Unicode和ASCII都是字符集,字符集为每个字符分配一个唯一的 ID,我们使用到的所有字符在 Unicode 字符集中都有一个唯一的 ID,例如上面例子中的 a 在 Unicode 与 ASCII 中的编码都是 97。
编码规则: 有了字符集后,需要对字符的ID进行编码,utf-8就是一种编码规则。utf-8从1个字节到4个字节不等,英文字符占一个字节,中文字符占3个字节。

Unicode和UTF-8编码

Unicode是一个符号集,规定了符号的二进制代码;而UTF-8是Unicode的实现方式。
UTF-8是国际化标准文字编码,包含全世界所有国家需要用到的字符,不同的语言用到的字节数不同。
英文1个字节,中文三个字节。

GBK编码

用于解决中文编码,包含中文和英文,中文和英文都用2个字节来编码。

UTF-8不同的语言有不同的字节数,一个中文字由三个字节的编码来表示,一个中文由一个字节的编码来表示。

GBK里面不管是中文字还是英文字母,都用2个字节的编码来表示。

网页编码

如果网页是用GBK格式编码的话,一个处于美国或者其他外国地区的人访问网站的时候会显示乱码,他们需要下载额外的中文语言包来支持。

如果网页用utf-8格式编码的话则不会出现这种问题。

ANSI编码

ANSI不是某一种特定的字符编码,在不同的系统中,ANSI会表示不同的编码。美国的电脑系统中ANSI编码是ASCII编码(ASCII编码不能表示汉字,所以汉字为乱码);中国的电脑中ANSI编码可能会是GBK编码或者UTF-8编码;韩文系统中ANSI编码可能是EUC-KR编码。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值