Unicode编码简介

一、介绍一些简单的概念:

1. 字符(Characters):各种文字和符号的总称。

2. 字符集(Character sets ):是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同。

3. 编码:用户存储字符的一种方法。

4. 编码包括以下两种形式:

1)互相关联的代码页,即代码页之间存在相互包含的关系,例如:ANSI中包含Double bytecharacter sets

2)独立的代码页,即两种代码页之间是并列关系,不存在相互包含的关系,例如:ISO/IEC 10646 (UCS – 4& UCS –2)Unicode

那么代码页长什么样呢?如下图:

5. 主要的编码类型包括

1)ASCII 编码

Windows1252/ISO8859-1

2)Windows/ISO 内置编码

GB2312,GB18030

3)UNICODE 编码

UTF-8

UTF-16

二、下面开始介绍Unicode相关的内容

1. 什么是 Unicode?

Unicode(中文:万国码、国际码、统一码、单一码)是计算机科学领域里的一项业界标准。它对世界上大部分的文字系统进行了整理、编码,使得电脑可以用更为简单的方式来呈现和处理文字. (如下图)

2. Unicode字符的特点

1) Unicode是一个单一的,通用的字符编码标准。

2) Unicode是统一的,固定宽度的编码方案。

3) Unicode是与语言无关的代码页。

4) Unicode是所有ANSI字符集的一个超集。

5) Unicode字符集包括新字符集。

6) Unicode字符包含跨语言重复的编码。

7) Unicode编码的空间范围从U + 0000 U +10ffff

3. UTF 编码方法

UTF – UnicodeTransformation Format,这种编码方式是Unicode这个组织制定的,将Unicode编码进行了转换,主要包括两种:

1) UTF –8主要用于计算机网络中的数据传输

2) UTF –16是具有可扩展性的Unicode,包含UTF-8

4. 如何使用Unicode输入字符

方法1:在 MicrosoftOffice Word中,选中部分字符后按Alt + X,可以将字符转为对应的Unicode

例如:在word中输入,选中后按Alt+x字就会变成“641C”

方法2:在Microsoft OfficeWord中,选中四位数字,按Alt+X,可以将Unicode转为对应的字符

例如:在word中输入“641C”,选中后按Alt+x“641C”就会变成

方法3:使用区位码输入法

5. 有关的编码bug

1) 编码中出现“?”

这是编码问题,原因是代码页选择正确,但是这个字符不在所选择的这个代码页中,所以使用 “?”来代替。

2) 编码出现各种乱码:

原因是代码页选择错误,对所要显示的字符无法进行解码,就显示了一堆随机的字符。

3) 编码中出现

是字体问题,原因是当前所选择的这个字符集中,没有对应的字体,但是有对应的字符。

6. 字符编码的测试范围

1) 进行安装操作时的系统环境:修改计算机名,工作组名,域名,登录名等为中文或其他字符

2) 路径:将程序安装到中文或其他字符的路径下

3) 文件的保存和打开

4) 可编辑区域

5) 查找和替换

6) 复制和粘贴

7) 产品中不同组件之间的字符传递

8) 与其他外部产品之间的字符传递。

9) 使用本地模式



原文链接

如需转载该篇文章,请注明来自“搜狗测试”


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值