字符编码(Unicode,UTF-8) 必须通俗易懂

 近几年,每每遇到关于Unicode,UTF-8之类的问题,总是需要花费半个小时回顾一下它们之间的关系,因为我发现很多网上的资料都是通篇文字描述,我的想法很简单,希望一目了然,下一次,希望一分钟之内完成回顾,于是我使用的表格描述,算是对网上很多的资料的一个格式转化和汇总吧!

字符集

Unicode

Unicode统一码、万国码、单一码)是计算机科学领域里的一项业界标准,包括字符集、编码方案等。

 

编码方式

编码说明(编码方式是实现字符集计算机存储的方式)

ANSI

ANSI是一种字符代码,为使计算机支持更多语言,通常使用 0x00~0x7f 范围的1 字节来表示 1 个英文字符。超出此范围的使用0x80~0xFFFF来编码,即扩展的ASCII编码。

 

简单的说,在英文编码系统下,ANSI编码代表ASCII(American Standard Code for Information Interchange美国信息交换标准码),在简体中文系统下,ANSI编码代表GB2312编码;在日文操作系统下,ANSI编码代表JS编码。

 

UCS-2

 

UCS-2(Universal Character Set coded in 2 octets)顾名思义,UCS-2是用两个字节来表示代码点,其取值范围为 U+0000~U+FFFF。

 

BOM(Byte Order Mark): Unicode规范中定义,每一个文件的最前面分别加入一个表示编码顺序的字符(ZERO WIDTH NO-BREAK SPACE--零宽度非换行空格,用来存储Big Endian(大头)和Little Endian(小头)标识),这个字符的名字叫做“零宽度非换行空格”(ZERO WIDTH NO-BREAK SPACE),用FEFF表示。这正好是两个字节,而且FF比FE大1。
如果一个文本文件的头两个字节是FE FF,就表示该文件采用大头方式;如果头两个字节是FF FE,就表示该文件采用小头方式。

 

特别强调,人们经常把UCS-2编码直接称为Unicode编码,所以特别容易混淆Unicode编码和Unicode字符集的关系。

 

UTF-8

 

UTF-8(8-bit Unicode Transformation Format),随着互联网的普及,强烈要求出现一种统一的编码方式。UTF-8就是在互联网上使用最广的一种unicode的实现方式。其他实现方式还包括UTF-16和UTF-32,不过在互联网上基本不用。重复一遍,这里的关系是,UTF-8Unicode的实现方式之一。
UTF-8最大的一个特点,就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号,根据不同的符号而变化字节长度。
UTF-8的编码规则很简单,只有二条:
1)对于单字节的符号,字节的第一位设为0,后面7位为这个符号的unicode码。因此对于英语字母,UTF-8编码和ASCII码是相同的。
2)对于n字节的符号(n>1),第一个字节的前n位都设为1,第n+1位设为0,后面字节的前两位一律设为10。剩下的没有提及的二进制位,全部为这个符号的unicode码。
 

UTF-16

不做过多介绍,2字节或者4字节。

UTF-32

不做过多介绍,定长4字节。

 

计算机系统通用的字符编码工作方式:

  在计算机内存中,统一使用Unicode编码,当需要保存到硬盘或者需要传输的时候,就转换为UTF-8编码。

  用记事本编辑的时候,从文件读取的UTF-8字符被转换为Unicode字符到内存里,编辑完成后,保存的时候再把Unicode转换为UTF-8保存到文件:

  浏览网页的时候,服务器会把动态生成的Unicode内容转换为UTF-8再传输到浏览器:

  所以很多网页的源码上会有类似<meta charset="UTF-8" />的信息,表示该网页正是用的UTF-8编码。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值