UTF-8的编码方式

转载 2006年06月13日 17:18:00
UTF编码

 

UTF-8就是以8位为单元对UCS进行编码。从UCS-2到UTF-8的编码方式如下:

UCS-2编码(16进制) UTF-8 字节流(二进制)
0000 - 007F 0xxxxxxx
0080 - 07FF 110xxxxx 10xxxxxx
0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx

例如“汉”字的Unicode编码是6C49。6C49在0800-FFFF之间,所以肯定要用3字节模板了:1110xxxx 10xxxxxx 10xxxxxx。将6C49写成二进制是:0110 110001 001001, 用这个比特流依次代替模板中的x,得到:11100110 10110001 10001001,即E6 B1 89。

UTF-16以16位为单元对UCS进行编码。对于小于0x10000的UCS码,UTF-16编码就等于UCS码对应的16位无符号整数。对于不小于0x10000的UCS码,定义了一个算法。不过由于实际使用的UCS2,或者UCS4的BMP必然小于0x10000,所以就目前而言,可以认为UTF-16和UCS-2基本相同。

UTF-8 可变编码格式

UTF-8 是一种可变编码格式,长度从一个字节到四个字节,可根据UTF-8字符的第一个字节来识别一个UTF-8字符的长度(具体见下面描述). 因为网络中大部分的字符是ASCII码字符,UTF-8可以用...
  • swedenfeng
  • swedenfeng
  • 2016年12月05日 17:51
  • 330

常见的几种字符编码方式及Unicode与UTF-8之间的关系

原文地址:http://blog.csdn.net/csywwx2008/article/details/17137097 一、常见的编码方式 常见的一些字符编码方式无非有:Unicode...
  • u014753535
  • u014753535
  • 2016年05月31日 10:07
  • 2642

各种编码方式详解,ASCII、ISO-8859-1、GB2312、GBK、UTF-16、UTF-8等

首先来说一下,为什么需要编码: 第一,我们知道在计算机中存储信息的最小单位是1个字节(byte),也就是8个bit,所以能表示的字符范围也就是0-255个。 第二,我们要表示的符号太多太多,远远超...
  • zzm628
  • zzm628
  • 2015年04月23日 10:16
  • 635

UTF-8格式编码与UTF-8无BOM格式编码的区别(包括java文件)

BOM——Byte Order Mark,就是字节序标记 在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符,它的编码是FEFF。而FFFE在UCS中是不存在的字...
  • fhzaitian
  • fhzaitian
  • 2016年05月25日 09:07
  • 4333

UTF-8编码格式与Unicode编码格式学习

UTF-8是Unicode的一种实现方式,也就是它的字节结构有特殊要求,所以我们说一个汉字的范围是0X4E00到0x9FA5,是指unicode值,至于放在utf-8的编码里去就是由三个字节来组织,所...
  • ztm521
  • ztm521
  • 2015年03月05日 16:49
  • 1325

设置python的默认编码为utf8

(这部分转自南瓜小米粥的博客): 这是Python的编码问题,设置python的默认编码为utf8 python安装目录:/etc/python2.x/sitecustom...
  • a87b01c14
  • a87b01c14
  • 2015年05月19日 19:51
  • 9125

FTP中文文件上传

配置数据库课程FTP时遇到的问题
  • ynyx0718
  • ynyx0718
  • 2015年03月11日 18:48
  • 765

MyEclipse编码设置,中文乱码解决方法,UTF-8,GBK

在Myeclipse导入一个项目,有中文乱码问题,解决方法有几个
  • xueer767
  • xueer767
  • 2016年12月01日 14:19
  • 1685

常见编码GBK、GB2312、UTF-8、ISO-8859-1的区别

在项目开发中,会经常遇到不同的编码方式。不管什么编码,都是信息在计算机中的一种表现,理解常见的编码方式,有助于我们避免出现乱码等现象。 最初的计算机字符编码是通过ASCII来编码的,是现今最通用的单...
  • shijing_0214
  • shijing_0214
  • 2016年03月16日 20:38
  • 5636

一个转换编码格式的VBS脚本

今天看到了一个转换编码格式的VBS脚本程序,但是只能转换2种,改造了一下,可以自己指定转换格式。支持: utf-8 ansi 或者是 gb2312 unicode 之间的相互转换。自动探测文件格式,手...
  • pdcxs007
  • pdcxs007
  • 2015年03月20日 22:27
  • 3889
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:UTF-8的编码方式
举报原因:
原因补充:

(最多只允许输入30个字)