字符编码

1 引言

       任何文字在计算机中都需要编码。由于计算机是由国外引进所以最先有的就是英文字符的编码集即ASCII,之后当然就有了中国汉字的GB2312编码方式,繁体是由BIG5编码。而常见的GBK方式只是GB2312的扩展,通常认为中文字符编码方式为GBK。由上可见,不同文字都有对应的编码方式,非常繁杂,于是乎就有官方制定了统一的格式Unicode编码。需要非常注意的是Unicode只是一种编码方式,即提供的是字符和数字的映射关系,并不提供它的计算机表示实现方式。于是乎就有了UTF-16高尾端、UTF-16低尾端和UTF-8的存储方式。即这三种只是用来计算机存储,它们的“翻译”过程是,计算机编码(UTF-16/UTF-8)到Unicode编码再经过查询文件找到对应的字符。

 

2 ASCII编码

       建立英文字符与二进制的映射关系,用一个字节表示。共规定128个字符编码,存储上占用一个字节的7位,最前面第一位统一为0。[可以作为简单识别的法则]

 

3 GBK编码

       中文字符的编码方式,GBK 亦采用双字节表示,总体编码范围为8140-FEFE,首字节在 81-FE 之间,尾字节在 40-FE 之间,剔除 xx7F 一条线。总计 23940 个码位,共收入 21886 个汉字和图形符号,其中汉字(包括部首和构件)21003 个,图形符号 883 个。

         注意:在Windows中文系统中,如果要将文本另外为其它格式中,提供选择的并没有GBK,这是因为统一成ASCII编码格式,即存储为ASCII编码时,如果文档中有中文字符那么默认会用GBK的方式翻译成二进制数字。

 

4 Unicode编码

       利用三字节甚至更多表示,即建立了三个字节数据到对应字符的映射。如果直接采用三字节存储很明显浪费很多内存。因此有三种实现方式。再次强调只是实现方式,它们都要先翻译成三字节的Unicode编码,然后得到对应的字符。

 

4.1 UTF-16高尾端和UTF-16低尾端

4.1.1 简介

       两者编码方式相似,区别只在于存储的是按高尾端方式存储还是低尾端方式存储。在Windows记事本中另存为“Unicode”是指用UTF-16低尾端格式编码,而“Unicode big endian”是利用UTF16高尾端格式编码。用十六进制显示文本可以发现,UTF16高尾端的前2字节分别是FE FF而UTF16低尾端的前2字节是FF FE。

      注意,这里的16,并不是指仅用2字节存储,16位只是一个单位,当然绝大多数部分2字节够用。具体规则见4.1.2。

4.1.2 编码规则

         [以下摘自百科]

        把Unicode  unicode编码记作U。编码规则如下:

        如果U<0x10000,U的UTF-16编码就是U对应的16位无符号整数(为书写简便,下文将16位无符号整数记作WORD)。

        如果U≥0x10000,计算U'=U-0x10000,然后将U'写成二进制形式:yyyy yyyyyyxx xxxx xxxx,U的UTF-16编码(二进制)就是:1101 10yy yyyy yyyy 1101 11xx xxxx xxxx。为什么U'可以被写成20个二进制位?Unicode的最大码位是0x10ffff,减去0x10000后,U'的最大值是0xfffff,所以肯定可以用20个二进制位表示。

        例如:Unicode编码0x20C30,减去0x10000后,得到0x10C30,写成二进制是:0001 00001100 0011 0000。用前10位依次替代模板中的y,用后10位依次替代模板中的x,就得到:1101100001000011 1101110000110000,即0xD843 0xDC30。 按照上述规则,Unicode编码0x10000-0x10FFFF的UTF-16编码有两个WORD,第一个WORD的高6位是110110,第二个WORD的高6位是110111。可见,第一个WORD的取值范围(二进制)是1101100000000000到11011011 11111111,即0xD800-0xDBFF。第二个WORD的取值范围(二进制)是11011100 00000000到11011111 11111111,即0xDC00-0xDFFF。

4.2 UTF-8

4.2.1 简介

         同样,8并不是只用8位1字节来表示,而是用变长来表示1-4字节表示。它的最大优点在于,1节省内存空间,2兼容ASCII标准。

4.2.2 编码规则

         1)对于单字节的符号,字节的第一位设为0,后面7位为这个符号的unicode码。因此对于英语字母,UTF-8编码和ASCII码是相同的。

        2)对于n字节的符号(n>1),第一个字节的前n位都设为1,第n+1位设为0,后面字节的前两位一律设为10。剩下的没有提及的二进制位,全部为这个符号的unicode码。

        例如“严”的unicode是4E25(100111000100101),根据上表,可以发现4E25处在第三行的范围内(00000800-0000 FFFF),因此“严”的UTF-8编码需要三个字节,即格式是“1110xxxx 10xxxxxx 10xxxxxx”。然后,从“严”的最后一个二进制位开始,依次从后向前填入格式中的x,多出的位补0。这样就得到了,“严”的UTF-8编码是 “11100100 10111000 10100101”,转换成十六进制就是E4B8A5。


5 其它

5.1 转换代码

        见参考文献【3】。

5.2 识别方法

        即拿到一个文件如何识别是用何种字符编码而成。分别读取前3字节,如果是0xEF, 0xBB, 0xBF那么该文件编码方式为UTF-8。如果前2字节是0xFF, 0xFE则是UTF16低尾端,如果前2字节是0xFE, 0xFF那么表示的是高尾端,如果都不是,那么肯定存储的是ASCI文件。

        不难发现上述方法并没有区分ASCII和GBK编码,这是因为再者没有交集,而且在Windows中都是存储为ASCI编码。所以如果上述规则都不符合,就认为是ASCI格式。那么对ASCII格式文件的读取方法就不能一字节一字节读取,而是每读一个字节,就分析最高位是否为1,如果为1表示编码为GBK用的是中文字节,所以接着取一个字节,联合在一起去国标码中查找对应字符。如果是0,那么表示的就是英文字符,不继续读取。

5.3 gcc

       在编译文件时,需要注意,GCC中默认源文件和生成文件都是以UTF-8解析和存储的,可以利用如下参数确定。尤其是源文件中含有中文时,特别要注意,最好指定编码集。

-finput-charset=charset  表示源文件的编码方式, 默认以UTF-8来解析

-fexec-charset=charset   表示可执行程序里的字时候以什么编码方式来表示,默认是UTF-8

 

参考文献

[1] http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html

[2] http://blog.sina.com.cn/s/blog_4aa887440101arks.html

[3] http://www.cnitblog.com/wujian-IT/archive/2007/12/13/37671.html

 

Firebird是一个全功能的,强大高效的,轻量级,免维护的数据库。它很容易让您从单用户,单数据库升级到企业级的应用。 一个firebird数据库服务器能够管理多个独立的数据库,每一个数据库同时可支持多个客户端连结。 关键特性:支持原子性,并发性,隔离性等概念。 MGA:支持事务的多个版本功能, 存储过程: 使用PSQL(Procedure SQL),你可以创建强大的存储过程来处理服务上的所有数据,你可以使用select Stored Procedure的形式,使用存储过程,以得到一个虚拟的表结构的结果。这样的话,你就可以很容易的在报表中使用它。 事件:存储过程和触发器可以引发事件,这个事件可以被客户端程序监听到 生成子:生成子也称为序列,它可以很容易的实现自动增加的字段。它是一个INT64的长度,因此,它可以用在一个事务中,也可以用在其它很多方面。 只读数据库: 我们可以把数据库存放在CD中,形成一个只读数据库。如果我们的应用程序 也在光盘上,再加上嵌入式的FB数据库服务器,便可以得到一个无与伦比的 CDLIVE(即只用光盘就可以运行起来)应用。 全事务控制: 一个客户端可以存在多个并发的事务。并且每一个事务都可以独立的进行控制,两段提交功能可以保证数据库的一致性。锁优化机制也支持多个事务的保存点。 在线备份: 不需要停止数据库即可进行备份,一个备份进程产生一个数据库当前的快照。因此,用户可以在备份期间持续的工作,即实现24x7(每天24小时,每周7天) 的操作。 触发器: 每一个表可以有多个并发的行级触发器,可以在插入前,插入后,更新前,更新后,删除前,删除后进行触发。我们可以在触发器中写入PSQL语句,默认值,产生异常,firebird现在支持统一触发器,即可以一个触发器中,一次性管理插入,更新,删除的操作。 扩展函数: 我们可以使用C语言,C++,DELPHI写UDF,使用UDF(用户定义函数库)可以很容易的挂入数据库引擎中以扩展我们需要的功能 字符集:Firebird实现了很多国际标准的字符集,包括Unicode。 SQL标准兼容:Firebird 实现了全部SQL92所要求的功能,实现了SQL99最常用的的要求。包括但不限于"FULL/LEFT/RIGHT [OUTER] JOIN , UNION, DISTINCT , 子查询 (IN, EXISTS),内部函数 (AVG, SUM, MIN, MAX, COALESCE, CASE, ..), 主键,外键,唯一索引以及所有通用的数据类型。 Firebird还实现了域,字段级别的约束,视图,异常,规则和权限管理,更多的详细信息,请参考Firebird发布通知和参考手册。 硬件需求: Firebird可以工作最常见的硬件环境中,甚至非常差的硬件中,也能很好的工作,当然,硬件的要求依赖于你想做什么,例如 ,你有多少个并发用户等等。 有效的平台支持: Firebrid在常见的平台上都可运行,如Linux和Windows(包括Windows终端服务器)其它支持的平台包括(MAC OS(苹果机), Solaris及HP-UX) 把数据库从一个平台转到另一个平台,非常的容易,只要备份数据库,然后,再到另一个平台上恢复即可 可连接性: Firebird 支持一系列的连接方法,目前,可以通过原生的DELPHI,C++组件连接,也可以通过ODBC,JDBC,PHP,OLEDB,DbExpress进行连接。原生 的联连提供了直接调用Firebird的API函数库(fbclient.dll/.so)进行调用的能力。 物理限制: Firebird支持非常巨大的数据库,数据库可以分成多个物理文件。每个文件的大小依赖于操作系统的限制。当前一个数据库文件最大的理论限制是64T (即64000G),因此,常见的限制通常是操作系统的限制以及磁盘空间的限制。 服务器引擎版本: 当前有三个服务器版本。 标准服务器:每一个客户连接将引发一个服务器进程(支持多处理器) 超级服务器:一相服务器进程模块管理所有的客户端连接,当前不支持多处理器。 嵌入服务器:整个服务器引擎就是一个动态库,只支持本地通过IO进行调用。 但是,所有的服务器都使用一种数据库格式,因此,你可以很方便的在不同的引擎之间共享数据库文件的数据。 协议: Firebird协议使用IPL(interbase public license)和IDPL(Initial Developer's Public License),这种协议类似于Mozilla协议。你可以完全的自由使用并且可以自由的布署在你的客户应用上。 你不需要公开你的源代码。当然,如果你修改和数据库引擎,你应该公布源代码。 工具: 有很多的工具支持Firebird.包括自由的,免费的和商业的。 包括开发工具,管理工具,诊断工具等等。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值