一,什么是字符编码
官方一点的讲,字符编码(ASCII、UTF-8、ISO-8859等)也成字符集,是把字符集中的字符编码为指定集合中某一对象,以便于在计算机中存储和通过通信网络的传递。
我们日常在计算机上看到的文字以及各类符号在计算机中都是以二进制的方式存放的,而二进制是计算机技术广为采用的一种数制,因此这两种之间的相互转换就出现了我们所了解到的字符编码。
二,主要字符编码简介
2.1 ASCII
这套编码是编码界的鼻祖,美国于1963年制定,用于保存英文文字,一个字节8位bit,标准的ASCII码只使用7个二进制位进行编码,也就是说它共包含128个字符,其中有32个控制字符和96个打印字符(字母,数字标点符号等)。等到计算机开始在其它国家广泛的流传,原有的字符数目有限,无法满足新的需求,因此国际化标准组织将ASCII扩充为八位代码。
2.2 ISO-8859
此编码为扩充ASCII字符集,同样为单字节编码。因为ASCII够英文使用,但是其他欧洲国家的语言都有特有的字符字母,ISO-8859支持部分欧洲语言,包括德语、法语、意大利语、瑞典语、西班牙语等多种语。
2.3 汉字编码
GB 2312-80 编码适用于简体汉字处理,满足国内用户计算机的使用,其包含3763个汉字、715个符号。
Big-5 大五码,此编码适用于台湾、香港繁体字与GB 2312不兼容,包含13053个中文汉字、408个字符以及33个控制字元的字集。
BGK 国家标准扩展字符集(GuoBiaoKuo国标扩)包含21003个汉字、882个字符,包括中日韩统一文字兼容GB 2312,包含Big-5的繁体字,但不兼容Big-5字符集编码。
2.4 Unicode
又称统一码、万国码、单一码,Unicode是为了统一全世界的的符号,打破ASCII的不能跨语言、跨平台的局限性,Unicode包含了100多万个字符,但其使用效率低,存储和传输都很耗资源。
2.5 UTF
UTF是Unicode转换格式,UTF-8是Unicode的变长字符编码,可以显示统一显示中文简繁体以及其它语言,UTF-8编码转Unicode编码的所需字节数要多。