Unicode
Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。
起源:
因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理。最早出现的ASCII码表就是一种用来表示大小写英文字母、数字和一些符号的统一编码表。
但是,如果要表示中文、日语、韩语等,显然一个字节是不够的,至少需要两个字节,而且还不能和ASCII编码冲突,所以需要一个统一所有文字的编码,于是Unicode应运而生。
Unicode通常用两个字节表示一个字符,原有的英文编码从单字节变成双字节,只需要把高字节全部填为0就可以。在表示一个Unicode的字符时,通常会用"U+"然后紧接着一组十六进制的数字来表示这一个字符。
作用:
Unicode能够使计算机实现跨语言、跨平台的文本转换及处理。
方式:
Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。目前的Unicode字符分为17组编排,0x0000 至 0x10FFFF。UTF-8、UTF-16、UTF-32都是将数字转换到程序数据的编码方案。
UTF-8