GB2312,GBK,GB18030,UTF8四种汉字编码标准有什么区别和联系

原创 2015年07月07日 17:14:44


从GB2312、GBK 到 GB18030,这些编码方法是向下兼容的,即同一个字符在这些方案中总是有相同的编码,后面的标准支持更多的字符。在这些编码中,英文和中文可以统一地处理。区分中文编码的方法是高字节的最高位不为 0。按照程序员的称呼,GB2312、GBK 到 GB18030 都属于双字节字符集 (DBCS)。

以下是这四种字符集的包含关系:GB2312 < GBK < GB18030 < UTF8


-------------------------------------------------------------------------------------------

可以参考这个链接  http://www.fmddlmyy.cn/text24.html

-------------------------------------------------------------------------------------------

1980年的GB2312一共收录了7445个字符,包括6763个汉字和682个其它符号。

1995年的汉字扩展规范GBK1.0收录了21886个符号,包括21003个汉字和883个其它符号。

GB18030有两个版本:GB18030-2000和GB18030-2005。GB18030-2000是GBK的取代版本,它的主要特点是在GBK基础上增加了CJK统一汉字扩充A的汉字。GB18030-2005的主要特点是在GB18030-2000基础上增加了CJK统一汉字扩充B的汉字。


否则在处理部分文件时,进行转换编码转换的时候,会出现转不了的情况,就会报错。

比如在PYTHON里,

for l in open('abc_gb18030.txt'):
    ls = l.rstrip('\n').decode('gbk').encode('utf8').split('\t')
    print ls
abc_gb18030.txt是GB18030编码,在代码里,先转成了GBK,然后又转成了UTF8,因为在向GBK转换的时候,是又一个较大字符集往小的字符集转,所以就会报错。


汉字编码标准与识别(转)

汉字编码标准与识别(一)代码页(Code Page)初识   本节是根据以下文章编写出来的,建议认真研读这些专家的高论。 参考1 >周报 97-1-17 参考2 > >周 报记者 黄伟敏 肖春江 99...

GB2312(部分GBK)汉字编码表

GB2312(部分GBK)汉字编码表 (2009-11-27 11:30:08) 转载 code    +0 +1+2 +3 +4 +5 +6 +7 +8 +9 +A +B +C +...

汉字编码对照表(gb2312/unicode/utf8)

一、汉字编码的种类     汉字编码中现在主要用到的有三类,包括GBK,GB2312和Big5。     1、GB2312又称国标码,由国家标准总局发布,1981年5月1日实施,通行于大陆...

汉字编码对照表(gb2312/unicode/utf8)

一、汉字编码的种类    汉字编码中现在主要用到的有三类,包括GBK,GB2312和Big5。    1、GB2312又称国标码,由国家标准总局发布,1981年5月1日实施,通行于大陆。新加坡等地也使...

汉字编码对照表(gb2312/unicode/utf8)

一、汉字编码的种类     汉字编码中现在主要用到的有三类,包括GBK,GB2312和Big5。     1、GB2312又称国标码,由国家标准总局发布,1981年5月1日实施,通行于大陆...

gb2312_unicode_utf8汉字编码对照表

  • 2014年08月31日 19:45
  • 172KB
  • 下载

ACSII,GB2312,GBK,GB18030,Unicode,UTF8,UTF16,UTF32,BOM区别与转换——字符编码最全总结

本人总结的最全字符编码概述,分享学习,涉及ACSII,GB2312,GBK,GB18030,Unicode,UTF8,UTF16,UTF32,BOM。 在做总结时被问到字符编码的知识,由于这块知识没...

转一个“GB,GBK,GB18030,Unicode”汉字编码知识

最近常见有人对GB、GBK、GB18030、Unicode等编码概念不清,再掺杂上Ext-A、Ext-B、Ext-C等,更混乱了。所以特别整理一些知识贴出来给大家:1、GB、BIG5、GBK、GB...

编码格式简介(ANSI、GBK、GB2312、UTF-8、GB18030和 UNICODE)

转发:http://blog.jobbole.com/30526/ 来源:潜行者m 的博客 编码一直是让新手头疼的问题,特别是 GBK、GB2312、UTF-8 这三个比较常见的网页编码的区别...
  • ldanduo
  • ldanduo
  • 2012年11月20日 14:02
  • 74633

常用字符集编码详解:ASCII 、GB2312、GBK、GB18030、UTF-8、unicode

ASCII ASCII码是7位编码,编码范围是0x00-0x7F。ASCII字符集包括英文字母、阿拉伯数字和标点符号等字符。其中0x00-0x20和0x7F共33个控制字符。 只支持AS...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:GB2312,GBK,GB18030,UTF8四种汉字编码标准有什么区别和联系
举报原因:
原因补充:

(最多只允许输入30个字)