【转】UTF-8 GB18030 GBK GB2312区别

转载 2013年12月05日 17:41:11

UTF-8 : 范围算最大,包括最多 基于unicode的 国际化的场合适合使用

GB18030:是GBK的超集

GBK : 中文 包括字比GB2312要多

GB2312: 中文 包括字最少

UTF-8详解:

UTF-8其实和Unicode是同类,就是在编码方式上不同!
首先,不像!
我们先来看Unicode的编码:一个英文字母 a 和 一个汉字 好,编码后都是占用的空间大小是一样的,都是两个字节!
而UTF8编码:一个英文字母a和 一个汉字 好 ,编码后占用的空间大小就不样了,前者是一个字节,后者是三个字节!
现在就让我们来看看UTF8编码的原理吧:
  因为一个字母还有一些键盘上的符号加起来只用二进制七位就可以表示出来,而一个字节就是八位,所以UTF8就用一个字节来表式字母和一些键盘上的符号。然而当我们拿到被编码后的一个字节后怎么知道它的组成?它有可能是英文字母的一个字节,也有可能是汉字的三个字节中的一个字节!所以,UTF8是有标志位的!
  当要表示的内容是 7位 的时候就用一个字节:0*******  第一个0为标志位,剩下的空间正好可以表示ASCII 0-127 的内容。
  当要表示的内容在 8 到 11 位的时候就用两个字节:110***** 10******  第一个字节的110和第二个字节的10为标志位。
  当要表示的内容在 12 到 16 位的时候就用三个字节:1110***** 10****** 10******    和上面一样,第一个字节的1110和第二、三个字节的10都是标志位,剩下的空间正好可以表示汉字。
  以此类推:
四个字节:11110**** 10****** 10****** 10****** 
  五个字节:111110*** 10****** 10****** 10****** 10****** 
  六个字节:1111110** 10****** 10****** 10****** 10****** 10****** 
  .............................................

相关文章推荐

GB2312、GBK、GB18030 、UTF-8、Unicode、ASCII这几种字符集的主要区别是什么?

很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物。他们看到8个开关状态是好的,于是他们把这称为”字节“。再后来,他们又做了一些可以处理这些字节的机器,机器开...

字符集编码详解【ASCII 、GB2312、GBK、GB18030、unicode、UTF-8】(转)

ASCII字符集编码      ASCII码是7位编码,编码范围是0x00-0x7F。ASCII字符集包括英文字母、阿拉伯数字和标点符号等字符。其中0x00-0x20和0x7F共33个控制字符。...

unicode、utf-8、gb18030、gb2312、gbk(转)

unicode、utf-8、gb18030、gb2312、gbk(转)       在修改一个cms的过程当中遇到一个php截取字符串的函数(当然得兼容中英字符了),因为对各种编码的字符...
  • huithe
  • huithe
  • 2012年02月03日 01:57
  • 1017

utf-8、gbk、gb2312区别

  • 2014年02月20日 23:39
  • 2KB
  • 下载

网页编码就是那点事( ANSI、GBK、GB2312、UTF-8、GB18030和 UNICODE)

编码一直是让新手头疼的问题,特别是 GBK、GB2312、UTF-8 这三个比较常见的网页编码的区别,更是让许多新手晕头转向,怎么解释也解释不清楚。但是编码又是那么重要,特别在网页这一块。如果你打出来...
  • s_jobs
  • s_jobs
  • 2012年11月19日 09:24
  • 3098

ANSI、GBK、GB2312、UTF-8、GB18030和、UNICODE编码解读

转载:http://www.qianxingzhem.com/post-1499.html 网页编码就是那点事 编码一直是让新手头疼的问题,特别是 GBK、GB2312、UTF-8...

unicode utf-8 gb18030 gb2312 gbk各种编码对比

下面的东西是从网上查到的  Unicode 的编码和实现 大概来说,Unicode 编码系统可分为编码方式和实现方式两个层次。  编码方式 Unicode 的编码方式与 ISO 1064...

常用字符集编码详解:ASCII 、GB2312、GBK、GB18030、UTF-8、unicode

来自:http://blog.csdn.net/zhoubl668/article/details/6914018 ASCII  ASCII码是7位编码,编码范围是0x00-0x7...
  • jo_say
  • jo_say
  • 2011年12月20日 14:07
  • 636

常用字符集编码详解:ASCII 、GB2312、GBK、GB18030、unicode、UTF-8

常用字符集编码详解:ASCII 、GB2312、GBK、GB18030、unicode、UTF-8      ANSI字符串我们最熟悉,英文占一个字节,汉字2个字节,以一个\0结尾,常用于txt文本文...

[转载]文字编码之间的差异及产生过程——ANSI、GBK、GB2312、GB18030、UNICODE以及UTF-8

原文地址:http://www.qianxingzhem.com/post-1499.html 编码一直是让新手头疼的问题,特别是 GBK、GB2312、UTF-8 这三个比...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:【转】UTF-8 GB18030 GBK GB2312区别
举报原因:
原因补充:

(最多只允许输入30个字)