个字符的集合,字符集种类较多,每个字符集包含的字符个数不同,常见字符集名称:ASCII
字符集、ISO 8859字符集、GB2312字符集、BIG5字符集、 GB 18030字符集、Unicode字符集等
。计算机要准确的处理各种字符集文字,需要进行字符编码,以便计算机能够识别和存储各种
文字。
编码(Encoding)和字符集不同。字符集只是字符的集合,不一定适合作网络传送、处理,有时
须经编码(Encode)后才能应用。如Unicode可依不同需要以UTF-8、UTF-16、UTF-32等方法编码
。
因此,对字符进行编码,是信息交流的技术基础。本文将按照字符集的时间顺序讨论几种典型
的字符集,选取几种代表性的字符集,研究历史由来、特点、技术特征。
ASCII 字符集
1.名称的由来
ASCII(American Standard Code for Information Interchange,美国信息互换标准代码)
是基于罗马字母表的一套电脑编码系统。
2.特点
它主要用于显示现代英语和其他西欧语言。它是现今最通用的单字节编码系统,并等同于国际
标准ISO 646。
3.包含内容
控制字符:回车键、退格、换行键等。
可显示字符:英文大小写字符、阿拉伯数字和西文符号
4.技术特征
7位(bits)表示一个字符,共128字符
5.ASCII扩展字符集
7位编码的字符集只能支持128个字符,为了表示更多的欧洲常用字符对ASCII进行了扩展,
ASCII扩展字符集使用8位(bits)表示一个字符,共256字符。
ASCII扩展字符集比ASCII字符集扩充出来的符号包括表格符号、计算符号、希腊字母和特殊的
拉丁符号。
ISO 8859
1. 名称的由来
ISO 8859,全称ISO/IEC 8859,是国际标准化组织(ISO)及国际电工委员会(IEC)联合制定的一
系列8位字符集的标准,现时定义了15个字符集。
2. 特点
ASCII收录了空格及94个“可印刷字符”,足以给英语使用。但是,其他使用拉丁字母的语言(
主要是欧洲国家的语言),都有一定数量的重音字母,故可以使用ASCII及控制字符以外的区域
来储存及表示。
3.包含内容
除了使用拉丁字母的语言外,使用西里尔字母的东欧语言、希腊语、泰语、现代阿拉伯语、希
伯来语等,都可以使用这个形式来储存及表示。
各种ISO 8859字符集
• ISO 8859-1 (Latin-1) - 西欧语言
• ISO 8859-2 (Latin-2) - 中欧语言
• ISO 8859-3 (Latin-3) - 南欧语言。世界语也可用此字符集显示。
• ISO 8859-4 (Latin-4) - 北欧语言
• ISO 8859-5 (Cyrillic) - 斯拉夫语言
• ISO 8859-6 (Arabic) - 阿拉伯语
• ISO 8859-7 (Greek) - 希腊语
• ISO 8859-8 (Hebrew) - 希伯来语(视觉顺序)
• ISO 8859-8-I - 希伯来语(逻辑顺序)
• ISO 8859-9 (Latin-5 或 Turkish) - 它把Latin-1的冰岛语字母换走,加入土耳其
语字母。
• ISO 8859-10 (Latin-6 或 Nordic) - 北日耳曼语族,用来代替Latin-4。
• ISO 8859-11 (Thai) - 泰语,从泰国的TIS620标准字集演化而来。
• ISO 8859-13 (Latin-7 或 Baltic Rim) - 波罗的海语族
• ISO 8859-14 (Latin-8 或 Celtic) - 塞尔特语族
• ISO 8859-15 (Latin-9) - 西欧语言,加入Latin-1欠缺的法语及芬兰语重音字母,
以及欧元(
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/95271/viewspace-466215/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/95271/viewspace-466215/