编码标准-GB2312 GBK GB18030-CSDN博客

本文链接：https://blog.csdn.net/aha_jasper/article/details/105252361

关于 ASCII编码 可以查看我的另外一篇博客编码标准-ASCII
关于 Unicode 可以参考我的另外一篇博客 Unicode

编码标准-GB2312 GBK GB18030

基本概念
区位码
GB 2312
GBK
GB 18030

基本概念

国家标准代码，简称国标码，亦被新加坡采用。国家标准强制标准冠以“GB”。推荐标准冠以“GB/T”。

GB
现时中华人民共和国官方强制使用 GB 18030 标准，但较旧的计算机仍然使用 GB 2312。
“GB”在计算机领域中常常表示 GB 2312-80 或 GB 18030-2005。两者是汉语编码系统的标准，在中国大陆和新加坡用于简体中文。

常用编码集
国家汉字标准代码，较常见的国家汉字标准代码列表
GB 2312 - 80 信息交换用汉字编码字符集基本集（又称为GB0）
GB 13000 - 93 信息技术通用多八位编码字符集（UCS）第一部分
GB 18030 - 2000 信息技术信息交换用汉字编码字符集基本集的扩充

其他中华人民共和国发布有关汉字标准代码列表：
GB/T 12345 - 90 信息交换用汉字编码字符集第一辅助集（又称为GB1）
GB/T 7589 - 87 信息交换用汉字编码字符集第二辅助集（又称为GB2）
GB 13131 - 91 信息交换用汉字编码字符集第三辅助集（又称为GB3）
GB/T 7590 - 87 信息交换用汉字编码字符集第四辅助集（又称为GB4）
GB 13132 - 91 信息交换用汉字编码字符集第五辅助集（又称为GB5）
GB/T 16500 - 1998 信息交换用汉字编码字符集第七辅助集

国家推荐标准以 “/T” 来表示并非强制执行。

由于GB 2312-80只收录了6763个汉字，未能覆盖繁体中文字、部分人名、方言、古汉语等方面出现的罕用字，所以发布了以上的辅助集。

其中，GB/T 12345-90辅助集是GB 2312-80基本集的繁体字版本；GB 13131-91是GB/T 7589-87的繁体字版本；GB 13132-91是GB/T 7590-87的繁体字版本。而GB/T 16500-1998是繁体字版本，它并无对应的简体字版本。

鉴于第二辅助集及第四辅助集，有不少汉字均是“类推简化汉字”，实用性不高，因而较少人采用。

中华人民共和国国家标准总局于2000年推出强制性的GB 18030-2000标准。于2001年8月31日后发布或出厂的产品，必须符合GB 18030-2000的相关要求。

区位码

国标码是一个四位十六进制数，区位码是一个四位的十进制数，每个国标码或区位码都对应着一个唯一的汉字或符号，但因为十六进制数我们很少用到，所以大家常用的是区位码，它的前两位叫做区码，后两位叫做位码。

编码规则
01-09 区为特殊符号
10-15 区为用户自定义符号区（未编码）
16-55 区为一级汉字，按拼音排序
56-87 区为二级汉字，按部首/笔画排序
88-94 区为用户自定义汉字区（未编码）

在区位码中，01-09区为特殊字符，16-55区为一级汉字(3755个最常用的汉字，按拼音字母的次序排列)，56-87区为二级汉字(3008个汉字，按部首次序排列)，在区位码汉字输入方法中,汉字编码无重码,在熟练掌握汉字的区位码后,录入汉字的速度是很快的，但若想记忆住全部区位码是相当困难的，常使用于录入特殊符号，如制表符、希腊字母等。

部分编码
想要了解全部的区位码，可以去这里了解，也可以自己百度。

这是01区的编码 特殊符号
01 ０１２３４５６７８９
０　　、。 · ˉ ˇ ¨ 〃々
１ — ～ ‖ … ‘ ’ “ ” 〔〕
２〈〉《》「」『』〖〗
３【】 ± × ÷ ∶ ∧ ∨ ∑ ∏
４ ∪ ∩ ∈ ∷ √ ⊥ ∥ ∠ ⌒ ⊙
５ ∫ ∮ ≡ ≌ ≈ ∽ ∝ ≠ ≮ ≯
６ ≤ ≥ ∞ ∵ ∴ ♂ ♀ ° ′ ″
７ ℃ ＄ ¤ ￠￡ ‰ § № ☆ ★
８ ○ ● ◎ ◇ ◆ □ ■ △ ▲ ※
９ → ← ↑ ↓ 〓

这是10区的编码 用户自定义符号区（未编码）
10 ０１２３４５６７８９
０　         
１          
２          
３          
４          
５          
６          
７          
８          
９     

这是16区的编码 一级汉字 ，按拼音字母的次序排列
16 ０１２３４５６７８９
０　啊阿埃挨哎唉哀皑癌
１蔼矮艾碍爱隘鞍氨安俺
２按暗岸胺案肮昂盎凹敖
３熬翱袄傲奥懊澳芭捌扒
４叭吧笆八疤巴拔跋靶把
５耙坝霸罢爸白柏百摆佰
６败拜稗斑班搬扳般颁板
７版扮拌伴瓣半办绊邦帮
８梆榜膀绑棒磅蚌镑傍谤
９苞胞包褒剥

这是56区的编码 二级汉字 ，按部首次序排列
56 ０１２３４５６７８９
０　亍丌兀丐廿卅丕亘丞
１鬲孬噩丨禺丿匕乇夭爻
２卮氐囟胤馗毓睾鼗丶亟
３鼐乜乩亓芈孛啬嘏仄厍
４厝厣厥厮靥赝匚叵匦匮
５匾赜卦卣刂刈刎刭刳刿
６剀剌剞剡剜蒯剽劂劁劐
７劓冂罔亻仃仉仂仨仡仫
８仞伛仳伢佤仵伥伧伉伫
９佞佧攸佚佝

16区所有字符的对应的区位码如下：
啊(1601) 阿(1602) 埃(1603) 挨(1604) 哎(1605) 唉(1606) 哀(1607) 皑(1608) 癌(1609) 蔼(1610)
矮(1611) 艾(1612) 碍(1613) 爱(1614) 隘(1615) 鞍(1616) 氨(1617) 安(1618) 俺(1619) 按(1620)
暗(1621) 岸(1622) 胺(1623) 案(1624) 肮(1625) 昂(1626) 盎(1627) 凹(1628) 敖(1629) 熬(1630)
翱(1631) 袄(1632) 傲(1633) 奥(1634) 懊(1635) 澳(1636) 芭(1637) 捌(1638) 扒(1639) 叭(1640)
吧(1641) 笆(1642) 八(1643) 疤(1644) 巴(1645) 拔(1646) 跋(1647) 靶(1648) 把(1649) 耙(1650)
坝(1651) 霸(1652) 罢(1653) 爸(1654) 白(1655) 柏(1656) 百(1657) 摆(1658) 佰(1659) 败(1660)
拜(1661) 稗(1662) 斑(1663) 班(1664) 搬(1665) 扳(1666) 般(1667) 颁(1668) 板(1669) 版(1670)
扮(1671) 拌(1672) 伴(1673) 瓣(1674) 半(1675) 办(1676) 绊(1677) 邦(1678) 帮(1679) 梆(1680)
榜(1681) 膀(1682) 绑(1683) 棒(1684) 磅(1685) 蚌(1686) 镑(1687) 傍(1688) 谤(1689) 苞(1690)
胞(1691) 包(1692) 褒(1693) 剥(1694)