关于 ASCII编码
可以查看我的另外一篇博客 编码标准-ASCII
关于 Unicode
可以参考我的另外一篇博客 Unicode
基本概念
国家标准代码
,简称国标码
,亦被新加坡采用。国家标准强制标准
冠以“GB
”。推荐标准
冠以“GB/T
”。
GB
现时中华人民共和国官方强制使用 GB 18030
标准,但较旧的计算机仍然使用 GB 2312
。
“GB
”在计算机领域中常常表示 GB 2312-80 或 GB 18030-2005
。两者是汉语编码系统的标准
,在中国大陆
和新加坡
用于简体中文
。
常用编码集
国家汉字标准代码,较常见的国家汉字标准代码列表
GB 2312 - 80
信息交换用汉字编码字符集 基本集(又称为GB0
)
GB 13000 - 93
信息技术 通用多八位编码字符集(UCS)第一部分
GB 18030 - 2000
信息技术 信息交换用汉字编码字符集 基本集的扩充
其他中华人民共和国发布有关汉字标准代码列表:
GB/T 12345 - 90
信息交换用汉字编码字符集 第一辅助集(又称为GB1
)
GB/T 7589 - 87
信息交换用汉字编码字符集 第二辅助集(又称为GB2
)
GB 13131 - 91
信息交换用汉字编码字符集 第三辅助集(又称为GB3
)
GB/T 7590 - 87
信息交换用汉字编码字符集 第四辅助集(又称为GB4
)
GB 13132 - 91
信息交换用汉字编码字符集 第五辅助集(又称为GB5
)
GB/T 16500 - 1998
信息交换用汉字编码字符集 第七辅助集
国家推荐标准
以 “/T
” 来表示并非强制执行
。
由于GB 2312-80只收录了6763个汉字,未能覆盖繁体中文字、部分人名、方言、古汉语等方面出现的罕用字,所以发布了以上的辅助集。
其中,GB/T 12345-90
辅助集是GB 2312-80基本集的繁体字版本
;GB 13131-91
是GB/T 7589-87的繁体字版本
;GB 13132-91
是GB/T 7590-87的繁体字版本
。而GB/T 16500-1998
是繁体字版本
,它并无对应的简体字版本
。
鉴于第二辅助集
及第四辅助集
,有不少汉字均是“类推简化汉字”,实用性不高
,因而较少
人采用
。
中华人民共和国国家标准总局于2000年
推出强制性的GB 18030-2000标准
。于2001年8月31日后
发布或出厂的产品
,必须符合GB 18030-2000的相关要求
。
区位码
国标码
是一个四位十六进制数
,区位码
是一个四位的十进制数
,每个国标码或区位码都对应着一个唯一的汉字或符号
,但因为十六进制数我们很少用到,所以大家常用的是区位码
,它的前两位叫做区码,后两位叫做位码
。
编码规则
01-09
区为特殊符号
10-15
区为用户自定义符号区(未编码)
16-55
区为一级汉字,按拼音排序
56-87
区为二级汉字,按部首/笔画排序
88-94
区为用户自定义汉字区(未编码)
在区位码中,01-09区为特殊字符,16-55区为一级汉字(3755个最常用的汉字,按拼音字母的次序排列),56-87区为二级汉字(3008个汉字,按部首次序排列), 在区位码汉字输入方法中,汉字编码无重码,在熟练掌握汉字的区位码后,录入汉字的速度是很快的,但若想记忆住全部区位码是相当困难的,常使用于录入特殊符号,如制表符、希腊字母等。
部分编码
想要了解全部的区位码,可以去 这里 了解 ,也可以自己百度。
这是01区
的 编码 特殊符号
01 0 1 2 3 4 5 6 7 8 9
0 、 。 · ˉ ˇ ¨ 〃 々
1 — ~ ‖ … ‘ ’ “ ” 〔 〕
2 〈 〉 《 》 「 」 『 』 〖 〗
3 【 】 ± × ÷ ∶ ∧ ∨ ∑ ∏
4 ∪ ∩ ∈ ∷ √ ⊥ ∥ ∠ ⌒ ⊙
5 ∫ ∮ ≡ ≌ ≈ ∽ ∝ ≠ ≮ ≯
6 ≤ ≥ ∞ ∵ ∴ ♂ ♀ ° ′ ″
7 ℃ $ ¤ ¢ £ ‰ § № ☆ ★
8 ○ ● ◎ ◇ ◆ □ ■ △ ▲ ※
9 → ← ↑ ↓ 〓
这是10区
的 编码 用户自定义符号区(未编码)
10 0 1 2 3 4 5 6 7 8 9
0
1
2
3
4
5
6
7
8
9
这是16区
的编码 一级汉字
,按拼音字母的次序排列
16 0 1 2 3 4 5 6 7 8 9
0 啊 阿 埃 挨 哎 唉 哀 皑 癌
1 蔼 矮 艾 碍 爱 隘 鞍 氨 安 俺
2 按 暗 岸 胺 案 肮 昂 盎 凹 敖
3 熬 翱 袄 傲 奥 懊 澳 芭 捌 扒
4 叭 吧 笆 八 疤 巴 拔 跋 靶 把
5 耙 坝 霸 罢 爸 白 柏 百 摆 佰
6 败 拜 稗 斑 班 搬 扳 般 颁 板
7 版 扮 拌 伴 瓣 半 办 绊 邦 帮
8 梆 榜 膀 绑 棒 磅 蚌 镑 傍 谤
9 苞 胞 包 褒 剥
这是56区
的编码 二级汉字
,按部首次序排列
56 0 1 2 3 4 5 6 7 8 9
0 亍 丌 兀 丐 廿 卅 丕 亘 丞
1 鬲 孬 噩 丨 禺 丿 匕 乇 夭 爻
2 卮 氐 囟 胤 馗 毓 睾 鼗 丶 亟
3 鼐 乜 乩 亓 芈 孛 啬 嘏 仄 厍
4 厝 厣 厥 厮 靥 赝 匚 叵 匦 匮
5 匾 赜 卦 卣 刂 刈 刎 刭 刳 刿
6 剀 剌 剞 剡 剜 蒯 剽 劂 劁 劐
7 劓 冂 罔 亻 仃 仉 仂 仨 仡 仫
8 仞 伛 仳 伢 佤 仵 伥 伧 伉 伫
9 佞 佧 攸 佚 佝
16区
所有字符的对应的区位码如下:
啊(1601) 阿(1602) 埃(1603) 挨(1604) 哎(1605) 唉(1606) 哀(1607) 皑(1608) 癌(1609) 蔼(1610)
矮(1611) 艾(1612) 碍(1613) 爱(1614) 隘(1615) 鞍(1616) 氨(1617) 安(1618) 俺(1619) 按(1620)
暗(1621) 岸(1622) 胺(1623) 案(1624) 肮(1625) 昂(1626) 盎(1627) 凹(1628) 敖(1629) 熬(1630)
翱(1631) 袄(1632) 傲(1633) 奥(1634) 懊(1635) 澳(1636) 芭(1637) 捌(1638) 扒(1639) 叭(1640)
吧(1641) 笆(1642) 八(1643) 疤(1644) 巴(1645) 拔(1646) 跋(1647) 靶(1648) 把(1649) 耙(1650)
坝(1651) 霸(1652) 罢(1653) 爸(1654) 白(1655) 柏(1656) 百(1657) 摆(1658) 佰(1659) 败(1660)
拜(1661) 稗(1662) 斑(1663) 班(1664) 搬(1665) 扳(1666) 般(1667) 颁(1668) 板(1669) 版(1670)
扮(1671) 拌(1672) 伴(1673) 瓣(1674) 半(1675) 办(1676) 绊(1677) 邦(1678) 帮(1679) 梆(1680)
榜(1681) 膀(1682) 绑(1683) 棒(1684) 磅(1685) 蚌(1686) 镑(1687) 傍(1688) 谤(1689) 苞(1690)
胞(1691) 包(1692) 褒(1693) 剥(1694)
GB 2312
《信息交换用汉字编码字符集》是由中国国家标准总局1980年
发布,1981年5月1日
开始实施的一套国家标准,标准号
是GB 2312—1980
。
GB2312编码适用于汉字处理、汉字通信
等系统之间的信息交换,通行于中国大陆;新加坡等地也采用此编码。中国大陆几乎所有的中文系统和国际化的软件都支持GB 2312。
基本集共收入汉字