UTF-8的编码方式

转载 2006年06月13日 17:18:00
UTF编码

 

UTF-8就是以8位为单元对UCS进行编码。从UCS-2到UTF-8的编码方式如下:

UCS-2编码(16进制) UTF-8 字节流(二进制)
0000 - 007F 0xxxxxxx
0080 - 07FF 110xxxxx 10xxxxxx
0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx

例如“汉”字的Unicode编码是6C49。6C49在0800-FFFF之间,所以肯定要用3字节模板了:1110xxxx 10xxxxxx 10xxxxxx。将6C49写成二进制是:0110 110001 001001, 用这个比特流依次代替模板中的x,得到:11100110 10110001 10001001,即E6 B1 89。

UTF-16以16位为单元对UCS进行编码。对于小于0x10000的UCS码,UTF-16编码就等于UCS码对应的16位无符号整数。对于不小于0x10000的UCS码,定义了一个算法。不过由于实际使用的UCS2,或者UCS4的BMP必然小于0x10000,所以就目前而言,可以认为UTF-16和UCS-2基本相同。

相关文章推荐

常见的几种字符编码方式 ASCII Unicode UTF-8 GBK

在设计数据库和网页程序编写的时候,经常涉及到一些编码方式的问题,在此总结一下! 原文地址:http://blog.csdn.net/csywwx2008/article/details/1713...
  • GS_008
  • GS_008
  • 2016年03月20日 18:29
  • 935

unicode、UTF-8、ASCII等编码方式的关系

今天复习一些基础的时候,又看到”编码方式“的这个名词了。 搜索了一些资料,算是搞清了ASCII、unicode、UTF-8的关系了。 1、ASCII ASCII是很久之前美国制定的一套字符编码,是英文...

设置 Eclipse 与 WinMerge 文件的编码方式UTF-8

Eclipse的设置: 如果要使插件开发应用能有更好的国际化支持,能够最大程度的支持中文输出,则最好使 Java文件使用UTF-8编码。然而,Eclipse工作空间(workspace)的缺省字符编...
  • lijpwsw
  • lijpwsw
  • 2013年08月21日 16:45
  • 854

UTF-8编码方式

Unicode规定了一套字符集,包含了世界上大多数字符,规定了这些字符的编码,每个编码可以理解为一个唯一的数字。     Unicode之规定了字符集,只规定了1对应的是什么字符,2对应的是什么字符...

字符编码方式:ASCII, Unicode和UTF-8

转自:http://blog.chinaunix.net/uid-21633169-id-4337685.html字符编码是计算机技术的基石,想要熟练使用计算机,懂得一点字符编码的知识,还是很有必要的...

编码方式的简介(ASCII, LATIN-1, UTF-8/16/32)

编码方式的简介 1. ASCII ASCII是7比特的字符集,涵盖了英语中的绝大多数字符。编码从0到127. 2. ISOLatin-1(the ISO-8859-1 standard) ISO La...

各种字符编码方式详解及由来(ANSI,GB2312,GBK,UNICODE,UTF-8)

很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物。他们认为8个开关状态作为原子单位很好,于是他们把这称为"字节"。 再后来,他们又做了一些可以处理这些字节...

eclipse中设置源文件及代码的编码方式为UTF-8

如果要使插件开发应用能有更好的国际化支持,能够最大程度的支持中文输出,则最好使 Java文件使用UTF-8编码。然而,Eclipse工作空间(workspace)的缺省字符编码是操作系统缺省的编码,简...

常见的几种字符编码方式及Unicode与UTF-8之间的关系

原文地址:http://blog.csdn.net/csywwx2008/article/details/17137097 一、常见的编码方式 常见的一些字符编码方式无非有:Unicode...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:UTF-8的编码方式
举报原因:
原因补充:

(最多只允许输入30个字)