【转】UTF-8 GB18030 GBK GB2312区别

转载 2013年12月05日 17:41:11

UTF-8 : 范围算最大,包括最多 基于unicode的 国际化的场合适合使用

GB18030:是GBK的超集

GBK : 中文 包括字比GB2312要多

GB2312: 中文 包括字最少

UTF-8详解:

UTF-8其实和Unicode是同类,就是在编码方式上不同!
首先,不像!
我们先来看Unicode的编码:一个英文字母 a 和 一个汉字 好,编码后都是占用的空间大小是一样的,都是两个字节!
而UTF8编码:一个英文字母a和 一个汉字 好 ,编码后占用的空间大小就不样了,前者是一个字节,后者是三个字节!
现在就让我们来看看UTF8编码的原理吧:
  因为一个字母还有一些键盘上的符号加起来只用二进制七位就可以表示出来,而一个字节就是八位,所以UTF8就用一个字节来表式字母和一些键盘上的符号。然而当我们拿到被编码后的一个字节后怎么知道它的组成?它有可能是英文字母的一个字节,也有可能是汉字的三个字节中的一个字节!所以,UTF8是有标志位的!
  当要表示的内容是 7位 的时候就用一个字节:0*******  第一个0为标志位,剩下的空间正好可以表示ASCII 0-127 的内容。
  当要表示的内容在 8 到 11 位的时候就用两个字节:110***** 10******  第一个字节的110和第二个字节的10为标志位。
  当要表示的内容在 12 到 16 位的时候就用三个字节:1110***** 10****** 10******    和上面一样,第一个字节的1110和第二、三个字节的10都是标志位,剩下的空间正好可以表示汉字。
  以此类推:
四个字节:11110**** 10****** 10****** 10****** 
  五个字节:111110*** 10****** 10****** 10****** 10****** 
  六个字节:1111110** 10****** 10****** 10****** 10****** 10****** 
  .............................................

相关文章推荐

GB2312、GBK、GB18030 、UTF-8、Unicode、ASCII这几种字符集的主要区别是什么?

很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物。他们看到8个开关状态是好的,于是他们把这称为”字节“。再后来,他们又做了一些可以处理这些字节的机器,机器开...

字符集编码详解【ASCII 、GB2312、GBK、GB18030、unicode、UTF-8】(转)

ASCII字符集编码      ASCII码是7位编码,编码范围是0x00-0x7F。ASCII字符集包括英文字母、阿拉伯数字和标点符号等字符。其中0x00-0x20和0x7F共33个控制字符。...

unicode、utf-8、gb18030、gb2312、gbk(转)

unicode、utf-8、gb18030、gb2312、gbk(转)       在修改一个cms的过程当中遇到一个php截取字符串的函数(当然得兼容中英字符了),因为对各种编码的字符...

utf-8、gbk、gb2312区别

字符编码ANSI、ASCII、GB2312、GBK、GB18030、UNICODE、UTF-8小结

编码和解码可以理解成二进制和字符(广义的字符,包括汉字等)的映射表,编码即从字符映射至二进制,解码则为逆过程。 1.英语字符编码ASCII    开始计算机只在美国用。8字节一共可以组合出256(2...

常用字符集编码详解:ASCII 、GB2312、GBK、GB18030、UTF-8、unicode

ASCII ASCII码是7位编码,编码范围是0x00-0x7F。ASCII字符集包括英文字母、阿拉伯数字和标点符号等字符。其中0x00-0x20和0x7F共33个控制字符。 只支持AS...

[转载]文字编码之间的差异及产生过程——ANSI、GBK、GB2312、GB18030、UNICODE以及UTF-8

原文地址:http://www.qianxingzhem.com/post-1499.html 编码一直是让新手头疼的问题,特别是 GBK、GB2312、UTF-8 这三个比...

ANSI、GBK、GB2312、UTF-8、GB18030和、UNICODE编码解读

转载:http://www.qianxingzhem.com/post-1499.html 网页编码就是那点事 编码一直是让新手头疼的问题,特别是 GBK、GB2312、UTF-8...

常用字符集编码详解:ASCII 、GB2312、GBK、GB18030、UTF-8、unicode

ASCII  ASCII码是7位编码,编码范围是0x00-0x7F。ASCII字符集包括英文字母、阿拉伯数字和标点符号等字符。其中0x00-0x20和0x7F共33个控制字符。 只支持AS...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)