字符编码_viscii字符集怎么用-CSDN博客

From: http://zh.wikipedia.org/wiki/%E5%AD%97%E7%AC%A6%E7%BC%96%E7%A0%81

字符编码（Character encoding）、字集码是把字符集中的字符编码为指定集合中某一对象（例如：比特模式、自然数序列、8位元组或者电脉冲），以便文本在计算机中存储和通过通信网络的传递。常见的例子包括将拉丁字母表编码成摩斯电码和ASCII。其中，ASCII将字母、数字和其它符号编号，并用7位元的二进制来表示这个整数。通常会额外使用一个扩充的位元，以便于以8位字节的方式存储。

在计算机技术发展的早期，如ASCII（1963年）和EBCDIC（1964年）这样的字符集逐渐成为标准。但这些字符集的局限很快就变得明显，于是人们开发了许多方法来扩展它们。对于支持包括东亚CJK字符家族在内的写作系统的要求能支持更大量的字符，并且需要一种系统而不是临时的方法实现这些字符的编码。

简单字符集

按照惯例，人们认为字符集和字符编码是同义词，因为使用同样的标准来定义提供什么字符并且这些字符如何编码到一系列的代码单元（通常一个字符一个单元）。由于历史的原因，MIME和使用这种编码的系统使用术语字符集来表示用于将一组字符编码成一系列八位字节数据的整个系统。

现代编码模型

由统一码和通用字符集所构成的现代字符编码模型则没有跟从简单字符集的观点。它们将字符编码的概念分为：有哪些字符、它们的编号、这些编号如何编码成一系列的“码元”（有限大小的数字）以及最后这些单元如何组成八位字节流。区分这些概念的核心思想是建立一个能够用不同方法来编码的一个通用字符集。为了正确地表示这个模型需要更多比“字符集”和“字符编码”更为精确的术语表示。现代模型中所用的术语列在下面：

字符表（Character repertoire）是一个系统支持的所有抽象字符的集合。字符表可以是封闭的，即除非创建一个新的标准（ASCII和多数ISO/IEC 8859系列都是这样的例子），否则不允许添加新的符号，；字符表也可以是开放的，即允许添加新的符号（统一码和一定程度上代码页是这方面的例子）。特定字符表中的字符反映了如何将书写系统分解成线性信息单元的决定。例如拉丁、希腊和斯拉夫字母表分为字母、数字、变音符号、标点和如空格这样的一些少数特殊字符，它们都能按照一种简单的线性序列排列（尽管对它们的处理需要另外的规则，如带有变音符号的字母这样的特定序列如何解释——但这不属于字符表的范畴）。为了方便起见，这样的字符表可以包括预先编号的字母和变音符号的组合。其它的书写系统，如阿拉伯语和希伯莱语，由于要适应双向文字和在不同情形下按照不同方式交叉在一起的字形，就使用更为复杂的符号表表示。

编码字符集（CCS:Coded Character Set）是将字符集 $C$ 中每个字符映射到一个非负整数 $N$ (称作码位)，这个字符集及码位映射称为编码字符集。例如，在一个给定的字符表中，表示大写拉丁字母“A”的字符被赋予整数65、字符“B”是66，如此继续下去。多个编码字符集可以表示同样的字符表，例如ISO-8859-1和IBM的代码页037和500含盖同样的字符表但是将字符映射为不同的整数。

字符编码表（CEF:Character Encoding Form）将编码字符集的非负整数值（即码位）转换成有限比特长度的整数值，以利于计算机系统使用固定比特长度的二进制形式表示该整数。例如，使用16比特长的存储单元保存数字信息，系统每个单元只能够直接表示从0到65,535的数值，但是如果使用多个16位单元就能够表示更大的整数。这就是CEF的作用，它可以把Unicode从0到140万的码空间范围的每个码位映射到单个或多个在0到65,5356范围内的码值。最简单的字符编码表就是单纯地选择足够大的单位，以保证编码字符集中的所有数值能够直接编码（一个码位对应一个码值）。这对于能够用使用八位元组来表示的编码字符集（如多数传统的非CJK的字符集编码）是合理的，对于能够使用十六位元来表示的编码字符集（如早期版本的Unicode）来说也足够合理。但是，随着编码字符集的大小增加（例如，现在的Unicode的字符集至少需要21位才能全部表示），这种直接表示法变得越来越没有效率，并且很难让现有计算机系统适应更大的码值。因此，许多使用新近版本Unicode的系统，或者将Unicode码位对应为可变长度的8位字节序列的UTF-8，或者将码位对应为可变长度的16位序列的UTF-16。

字符编码方案（CES:Character Encoding Scheme）定义如何将定长的整数码对应到8位元组的序列，以便编码后的数据的文件存储或网络传输。在使用Unicode的场合，使用一个简单的字符来指定字节顺序是大端序或者小端序（但对于UTF-8来说并不需要专门指明字节序）。然而，有些复杂的字符编码机制使用转义序列在几种简单编码模式（如ISO/IEC 2022）和用于减小每个单元所用字节数的压缩机制（如SCSU、BOCU和Punycode）之间切换。

高层机制（higher level protocol）提供了额外信息，用于选择Unicode字符的特定变种，如XML属性 xml:lang

字符映射(character map)在Unicode中保持了其传统意义：从字符序列到编码后的字节序列的映射，包括了上述的CCS, CEF, CES层次。

字符集、代码页，与字符映射

术语字符编码(character encoding), 字符映射(character map), 字符集(character set)或者代码页，在历史上往往是同义概念, 即字符表(repertoire)中的字符如何编码为码元的流(stream of code units) – 通常每个字符对应单个码元。

码元（Code Unit，也称“代码单元”）是指一个已编码的文本中具有最短的比特组合的单元。对于UTF-8来说，码元是8比特长；对于UTF-16来说，码元是16比特长；对于UTF-32来说，码元是32比特长^[1]。码值（Code Value）是过时的用法。

代码页通常意味着面向字节的编码，但强调是一套用于不能语言的编码方案的集合. 著名的如"Windows"代码页系列，"IBM"/"DOS"代码页系列.

IBM的字符数据表示体系(Character Data Representation Architecture - CDRA)与编码字符集标识符(coded character set identifiers - CCSIDs) 常常把charset, character set, code page, or CHARMAP等类似意义的术语混用.

Unix或Linux不使用代码页概念，它们用charmap，比locales具有更广泛的含义.

与上文的编码字符集(Coded Character Set - CCS)不同，字符编码(character encoding)是从抽象字符到代码字(code word)的映射. HTTP(与MIME)的用法中，字符集(character set)与字符编码同义，但与CCS不是一个意思.

字符编码（不全）

西欧标准

ISO-8859-1
ISO-8859-5
ISO-8859-6
ISO-8859-7
ISO-8859-11
ISO-8859-15
ISO/IEC 646

DOS字符集（又称IBM代码页）

Windows 字符集

Windows-1250
Windows-1251 用于西里尔字母表
Windows-1252
Windows-1253
Windows-1254
Windows-1255 用于希伯莱语
Windows-1256 用于阿拉伯语
Windows-1257
Windows-1258 用于越南语

亚洲字符集

中国大陆

GB 2312
EUC
GBK（规定文件为GB13000）
GB 18030

港澳台

日本

朝鲜半岛

越南

越南资讯交换标准代码

印度

印度文字资讯交换码

Unicode

字符转换工具

由于有很多种字符编码方法被使用，从一种字符编码转换到另一种，需要一些工具。

跨平台:

网页浏览器 – 大多数现代的网页浏览器都具有此功能。一般是在菜单"查看"(View)/"字符编码"(Character Encoding)
iconv – 程序与编程API，用于字符编码转换
convert_encoding.py – 基于Python的转换工具.^[2]
decodeh.py – 用于启发性猜测编码方案的算法与模块.^[3]
International Components for Unicode – 一套C语言与Java语言的开源库，由IBM提供，用于Unicode等多语言编码的转换、实现.
chardet – Mozilla的编码自动检测代码的Python语言实现.
新版本的Unix命令File做字符编码的检测. (cygwin与mac都有此命令)

Linux:

recode – ^[4]
utrac – 将整个文件内容从一种字符编码转换到另外一种^[5]
cstocs –
convmv – 转换文件名.^[6]
enca – 分析编码模式.^[7]

Microsoft Windows:

Encoding.Convert – .NET API^[8]
MultiByteToWideChar/WideCharToMultiByte – Windows API^[9]
cscvt – 转换工具^[10]
enca – 分析编码方法^[11]

参见

Category:字符编码 — 关于通用字符编码的文章
Category:字符集 — 关于特殊字符编码的文章
乱码 — 非映射字符集
字符集

参考文献

外部连接

Character sets registered by Internet Assigned Numbers Authority
Unicode Technical Report #17: Character Encoding Model
SIL's freeware fonts, editors and documentation See SIL
ICU Converter Explorer
The Cyrillic Charset soup
Early history of character set standardization
Character Sets And Code Pages At The Push Of A Button
A complete introduction to Japanese character encodings
A tutorial on character code issues
Online Char (ASCII), HEX, Binary, Base64, etc... Encoder/Decoder with MD2, MD4, MD5, SHA1+2, etc. hashing algorithms
Universal Cyrillic decoder, 一个用来帮助恢复由于错误字符编码产生的不可读的西里尔字母的在线程序（以及其它的一些程序）.
Introduction to i18n，请参阅 Chapter 3 - Important Concepts for Character Coding Systems
汉字字符编码查询
精确解释Unicode

隐藏▲ 查 · 论 · 编字符编码

字符集

早期电信	ASCII ISO/IEC 646 ISO/IEC 6937 T.61 sixbit code pages Baudot code 摩斯电码中文电码

ISO/IEC 8859	-1 -2 -3 -4 -5 -6 -7 -8 -9 -10 -11 -12 -13 -14 -15 -16

书目使用	ANSEL ISO 5426 / 5426-2 / 5427 / 5428 / 6438 / 6861 / 6862 / 10585 / 10586 / 10754 / 11822 MARC-8

国家标准	ArmSCII CNS 11643 GOST 10859 GB 2312 HKSCS ISCII JIS X 0201 JIS X 0208 JIS X 0212 JIS X 0213 KPS 9566 KS X 1001 PASCII TIS-620 TSCII VISCII YUSCII

EUC	CN JP KR TW

ISO/IEC 2022	CN JP KR CCCII

MacOS codepages ("scripts")	阿拉伯语中欧简体中文 / EUC-CN 繁体中文 / Big5 克罗地亚语西里尔文梵文 Dingbats 波斯语希腊语古吉拉特语古木基文希伯来语冰岛文日文 / ShiftJIS 韩文 / EUC-KR 罗马文罗马尼亚语符号泰文 / TIS-620 土耳其语乌克兰文

DOS代码页	437 720 737 775 850 852 855 857 858 860 861 862 863 864 865 866 869 Kamenický Mazovia MIK Iran System

Windows代码页	874 / TIS-620 932 / ShiftJIS 936 / GBK 949 / EUC-KR 950 / Big5 1250 1251 1252 1253 1254 1255 1256 1257 1258 1361 54936 / GB18030

EBCDIC代码页	37/1140 273/1141 277/1142 278/1143 280/1144 284/1145 285/1146 297/1147 420/16804 424/12712 500/1148 838/1160 871/1149 875/9067 930/1390 933/1364 937/1371 935/1388 939/1399 1025/1154 1026/1155 1047/924 1112/1156 1122/1157 1123/1158 1130/1164 JEF KEIS

特定平台	ATASCII CDC display code DEC-MCS DEC Radix-50 Fieldata GSM 03.38 HP roman8 PETSCII TI calculator character sets WISCII ZX Spectrum character set

Unicode / ISO/IEC 10646	UTF-8 UTF-16/UCS-2 UTF-32/UCS-4 UTF-7 UTF-1 UTF-EBCDIC GB 18030 SCSU BOCU-1

杂项代码页	APL Cork HZ IBM code page 1133 KOI8 TRON

相关主题	控制字符 (C0 C1) CCSID HTML字符编码字符集探测中日韩越统一表意文字 ISO 6429/IEC 6429/ANSI X3.64 乱码