一、介绍一些简单的概念:
1. 字符(Characters):各种文字和符号的总称。
2. 字符集(Character sets ):是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同。
3. 编码:用户存储字符的一种方法。
4. 编码包括以下两种形式:
1)互相关联的代码页,即代码页之间存在相互包含的关系,例如:ANSI中包含Double bytecharacter sets;
2)独立的代码页,即两种代码页之间是并列关系,不存在相互包含的关系,例如:ISO/IEC 10646 (UCS – 4& UCS –2)、Unicode
那么代码页长什么样呢?如下图:
5. 主要的编码类型包括
1)ASCII 编码
Windows1252/ISO8859-1
2)Windows/ISO 内置编码
GB2312,GB18030
3)UNICODE 编码
UTF-8
UTF-16
二、下面开始介绍Unicode相关的内容
1. 什么是 Unicode?
Unicode(中文:万国码、国际码、统一码、单一码)是计算机科学领域里的一项业界标准。它对世界上大部分的文字系统进行了整理、编码,使得电脑可以用更为简单的方式来呈现和处理文字. (如下图)
2. Unicode字符的特点
1) Unicode是一个单一的,通用的字符编码标准。
2) Unicode是统一的,固定宽度的编码方案。
3) Unicode是与语言无关的代码页。
4) Unicode是所有ANSI字符集的一个超集。
5) Unicode字符集包括新字符集。
6) Unicode字符包含跨语言重复的编码。
7) Unicode编码的空间范围从U + 0000 U +10ffff。
3. UTF 编码方法
UTF – UnicodeTransformation Format,这种编码方式是Unicode这个组织制定的,将Unicode编码进行了转换,主要包括两种:
1) UTF –8:主要用于计算机网络中的数据传输
2) UTF –16:是具有可扩展性的Unicode,包含UTF-8。
4. 如何使用Unicode输入字符
方法1:在 MicrosoftOffice Word中,选中部分字符后按Alt + X,可以将字符转为对应的Unicode
例如:在word中输入“搜”,选中后按Alt+x,“搜”字就会变成“641C”
方法2:在Microsoft OfficeWord中,选中四位数字,按Alt+X,可以将Unicode转为对应的字符
例如:在word中输入“641C”,选中后按Alt+x,“641C”就会变成“搜”字
方法3:使用“区位码”输入法
5. 有关的编码bug
1) 编码中出现“?”:
这是编码问题,原因是代码页选择正确,但是这个字符不在所选择的这个代码页中,所以使用 “?”来代替。
2) 编码出现各种乱码:
原因是代码页选择错误,对所要显示的字符无法进行解码,就显示了一堆随机的字符。
3) 编码中出现 “囗”:
是字体问题,原因是当前所选择的这个字符集中,没有对应的字体,但是有对应的字符。
6. 字符编码的测试范围
1) 进行安装操作时的系统环境:修改计算机名,工作组名,域名,登录名等为中文或其他字符
2) 路径:将程序安装到中文或其他字符的路径下
3) 文件的保存和打开
4) 可编辑区域
5) 查找和替换
6) 复制和粘贴
7) 产品中不同组件之间的字符传递
8) 与其他外部产品之间的字符传递。
9) 使用本地模式
如需转载该篇文章,请注明来自“搜狗测试”