【转】UTF-8 GB18030 GBK GB2312区别

转载 2013年12月05日 17:41:11

UTF-8 : 范围算最大,包括最多 基于unicode的 国际化的场合适合使用

GB18030:是GBK的超集

GBK : 中文 包括字比GB2312要多

GB2312: 中文 包括字最少

UTF-8详解:

UTF-8其实和Unicode是同类,就是在编码方式上不同!
首先,不像!
我们先来看Unicode的编码:一个英文字母 a 和 一个汉字 好,编码后都是占用的空间大小是一样的,都是两个字节!
而UTF8编码:一个英文字母a和 一个汉字 好 ,编码后占用的空间大小就不样了,前者是一个字节,后者是三个字节!
现在就让我们来看看UTF8编码的原理吧:
  因为一个字母还有一些键盘上的符号加起来只用二进制七位就可以表示出来,而一个字节就是八位,所以UTF8就用一个字节来表式字母和一些键盘上的符号。然而当我们拿到被编码后的一个字节后怎么知道它的组成?它有可能是英文字母的一个字节,也有可能是汉字的三个字节中的一个字节!所以,UTF8是有标志位的!
  当要表示的内容是 7位 的时候就用一个字节:0*******  第一个0为标志位,剩下的空间正好可以表示ASCII 0-127 的内容。
  当要表示的内容在 8 到 11 位的时候就用两个字节:110***** 10******  第一个字节的110和第二个字节的10为标志位。
  当要表示的内容在 12 到 16 位的时候就用三个字节:1110***** 10****** 10******    和上面一样,第一个字节的1110和第二、三个字节的10都是标志位,剩下的空间正好可以表示汉字。
  以此类推:
四个字节:11110**** 10****** 10****** 10****** 
  五个字节:111110*** 10****** 10****** 10****** 10****** 
  六个字节:1111110** 10****** 10****** 10****** 10****** 10****** 
  .............................................

GBK 、GB2312 、GB18030 、UTF-8 、UTF-16的区别

最近在处理字符编码相关的项目,发现不同的编码方式结果差异挺大,今天就各种编码进行详细比对下。     GB2312 或 GB2312-80 是中华人民共和国国家标准简体中文字符集,全称《信息交换用汉字...
  • SETSAIL5566
  • SETSAIL5566
  • 2013年12月24日 16:35
  • 887

GB2312/GBK/GB18030转UTF8全攻略(v0.3 非最终版本 )

要说明的是,由中文的locale转UTF8是一个痛苦的过程,经过这个过程,你会得到一些东西,但也会失去一些东西;你会得到一些便利,但也会带来一些麻烦。 首先介绍一下GB编码格式和UNICODE编码格式...
  • itegel84
  • itegel84
  • 2010年09月26日 15:28
  • 5448

GB2312, GBK, GB18030 这几种字符集主要的区别是什么?

早期的计算机使用7位的ASCII编码,为了处理汉字,程序员设计了用于简体中文的GB2312和用于繁体中文的big5。  GB2312(1980年):16位字符集,收录有6763个简体汉字,682个符...
  • xueshandugu
  • xueshandugu
  • 2014年03月25日 22:37
  • 1641

中文字符集编码Unicode ,gb2312 , cp936 ,GBK,GB18030(转)

转自: http://www.blog.edu.cn/user3/flyingcs/archives/2006/1418577.shtml 概要:UTF-8的一个特别的好处是它与ISO- 8859...
  • longzhiwen888
  • longzhiwen888
  • 2015年06月19日 15:46
  • 1127

GB2312,GBK,GB18030详解

GB
  • chienchia
  • chienchia
  • 2014年06月06日 18:38
  • 936

GB2312、GBK和GB18030的联系与区别

从GB2312、GBK 到 GB18030,这些编码方法是向下兼容的,即同一个字符在这些方案中总是有相同的编码,后面的标准支持更多的字符。在这些编码中,英文和中文可以统一地处理。区分中文编码的方法是高...
  • xyls12345
  • xyls12345
  • 2010年10月01日 18:32
  • 573

中文字符编码简介 GB2312/GBK/GB18030/BIG5

1 GB2312-80GB2312码是中华人民共和国国家汉字信息交换用编码,全称《信息交换用汉字编码字符集——基本集》,由国家标准总局发布,1981年5月1日实施,通行于大陆。新加坡等地也使用此编码。...
  • liujinchengjx
  • liujinchengjx
  • 2007年03月13日 14:34
  • 13468

GB2312、GBK、GB18030 、UTF-8、Unicode、ASCII这几种字符集的主要区别是什么?

很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物。他们看到8个开关状态是好的,于是他们把这称为”字节“。再后来,他们又做了一些可以处理这些字节的机器,机器开...
  • sinat_37390744
  • sinat_37390744
  • 2017年02月21日 21:38
  • 291

[转]gbk与gb2312

中文字符编码简介 1 GB2312-80GB2312码是中华人民共和国国家汉字信息交换用编码,全称《信息交换用汉字编码字符集——基本集》,由国家标准总局发布,1981年5月1日实施,通行于大陆。新加...
  • luocm
  • luocm
  • 2007年06月13日 08:41
  • 959

GB2312,GBK,GB18030,UTF8四种汉字编码标准有什么区别和联系

从GB2312、GBK 到 GB18030,这些编码方法是向下兼容的,即同一个字符在这些方案中总是有相同的编码,后面的标准支持更多的字符。在这些编码中,英文和中文可以统一地处理。区分中文编码的方法是高...
  • wanglei9876
  • wanglei9876
  • 2015年07月07日 17:14
  • 1353
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:【转】UTF-8 GB18030 GBK GB2312区别
举报原因:
原因补充:

(最多只允许输入30个字)