开发中同一个字拥有不同编码的汇总(eg䶮)

借用知乎上的回答:

属于GBK的遗留问题,当年定义GBK的时候同期的Unicode还没收“龙天”所以GBK给制定了个用户自定义区的码e863,后来Unicode收了该字,就在正式区分了码4dae。有些输入法按GBK规范做就是输出e863,另一些按Unicode做,输出就是4dae,理论上,应该以4dae为准,毕竟现在是Unicode的天下了
链接:https://www.zhihu.com/question/29273111/answer/100904852

 

以下转载自:http://code.web.idv.hk/index.php

GB 18030 編碼表

因 GB 18030 的設計是要把整個 Unicode 的字碼作對應,所以 GB 18030 的碼表,也與 Unicode 一樣龐大。

GB 18030 至今共有兩個版本:GB 18030-2000 和 GB 18030-2005。2005年版為現行版本。兩者分別見下。

在2018年7月,全國信息技術標準化技術委員會擬製作新的 GB 18030 版本,相信最終本將稱為 GB 18030-2019,並計劃在2019年下半年發佈。新版本目標是把所有《通用規範漢字表》的漢字,和直至 CJK-F 區的所有漢字都收錄在內(CJK 主區剩餘的 66 (74 減去已收錄的 U+9FB4–U+9FBB) 字、CJK-C 區 的 4149 字、CJK-D 區的 222 字、CJK-E 區的 5762字、CJK-F 區的 7473 字,共 87916 字)。

不過,此擬修訂版本,不明所意地打算把位於「相容表意文字區」中但實則獨一的漢字:U+FA0E(﨎)、U+FA0F(﨏)、U+FA11(﨑)、U+FA13(﨓)、U+FA14(﨔)、U+FA1F(﨟)、U+FA21(﨡)、U+FA23(﨣)、U+FA24(﨤)、U+FA27(﨧)、U+FA28(﨨)、U+FA29(﨩),和另外 9 個兼容漢字(郎、凉、秊、裏、隣、兀、嗀、礼、蘒)刪除。

請按下拉選框,選擇你想查詢的字碼。字碼第一欄以 Unicode 排序,第二欄為 GB 18030 內碼。有需要時輔以第三欄說明。

 請選擇  U+0000–U+0FFF U+1000–U+1FFF U+2000–U+2FFF U+3000–U+3FFF U+4000–U+4FFF U+5000–U+5FFF U+6000–U+6FFF U+7000–U+7FFF U+8000–U+8FFF U+9000–U+9FFF U+A000–U+AFFF U+B000–U+BFFF U+C000–U+CFFF U+D000–U+D7FF U+E000–U+F8FF(私人使用區) U+F900–U+FFFF(兼容區)   多文種補充平面 (SMP) 表意文字補充平面 (SIP) 表意文字第三平面(TIP,未正式使用) 第4輔助平面(尚未使用) 第5輔助平面(尚未使用) 第6輔助平面(尚未使用) 第7輔助平面(尚未使用) 第8輔助平面(尚未使用) 第9輔助平面(尚未使用) 第10輔助平面(尚未使用) 第11輔助平面(尚未使用) 第12輔助平面(尚未使用) 第13輔助平面(尚未使用) 特別用途補充平面 (SSP) 第15輔助平面(私人使用區A區) 第16輔助平面(私人使用區B區)  


GBK與GB 2312的分別

  • GB 2312 2字節碼位,第一個字節的值從 0xA1–FE(0xAA–AF 和 0xF8–FE 實際未使用),第二個字節的值從 0xA1–FE。
    GBK 2字節碼位,第一個字節的值從 0x81–FE,第二個字節的值從 0x40–7E 和 0x80–FE。
  • GB 2312 只有 6,763 個漢字。GBK 收錄所有中日韓統一表意文字基本區漢字。
    0x8140–A0FE,加入 6,080 個漢字;0xAA40–FD9B(不包括原有 GB 2312 範圍),加入 8,059 個漢字;0xFD9C–FE4F,加入 21 個兼容漢字。
  • GB 2312 只有 682 個符號。在後來的字形標準如 GB 5007.1 和 GB 6345.1 等,在 0xA8BB–A8C0 補上六個拼音符號:ɑ ḿ ń ň ǹ ɡ。GBK 承繼了這些符號。
  • GBK 加入 10 個小寫羅馬數字 ⅰ–ⅹ (0xA2A1–A2AA)。
  • GBK 加入 29 個豎排標點符號 (0xA6D9–A6F5)。來源自 GB 12345 標準。
  • GBK 加入台灣電腦系統用的符號 (0xA840–A895, 0xA940–A988,不包含 A958, A95B, A95D–A95F)。
    但實際上,台灣電腦系統並沒有 0xA844(―), 0xA891(☉), 0xA95C(‐) 。
    Big5 碼的 0xA145(‧), 0xA15A(╴), 0xA1C2(¯ 或 ‾), 0xA1C5(ˍ) 亦沒有在 GBK 出現。
  • 加入表意文字描述符 (0xA989–A995) 和漢字數字零 〇 (0xA996)
  • 加入當時 Unicode 尚未收錄的 52 個《簡化字總表》漢字、28 個《康熙字典》和《辭海》漢字部件 (0xFE50–FEA0)。
  • 註:GB 5007.1 和 GB 6345.1 等標準,在第 10 區(內碼 0xAAA1–AAFE)補充 94 個半形 ASCII 字符、
    在第 11 區(內碼 0xABA1–ABC0)補充漢語拼音 ü 的半形字符、a, e, i, o, u, ü 陰陽上去四聲的半形字符、和 ê, ɑ, ḿ, ń, ň, ǹ, ɡ 的半形字符共 32 個。
    GBK 和 GB 18030 標準均沒有遵從。

GBK與微軟CP936的分別

  • 微軟 CP936 在 0x80 加入歐元符號 €(1995年 GBK 推出時,歐元尚未誕生)
  • 微軟 CP936 沒有 0xA6D9–A6DF, A6EC–A6ED, A6F3, A8BC, A8BF, A989–A995, FE50–FEA0(GB 13000.1 / Unicode 1.0 沒有那些字符)。

GB 18030-2000與GBK的分別

  • GB 18030-2000 增加了4字節的碼位,第一個字節的值從 0x81–FE,第二個字節的值從 0x30–39,第三個字節從 0x81–FE,第四個字節從 0x30–39。並把 Unicode 的所有可能編碼,都對應到其中一個 GB 18030 碼位。
  • GB 18030-2000 收錄所有中日韓統一表意文字擴展A區漢字。
  • GB 18030-2000 把歐元符號收錄在 0xA2E3。
    很不幸,在微軟簡體中文系統,0x80 依舊是歐元符號;0xA2E3 則另有一個歐元符號,對應至私人造字碼 U+E76C。
  • 因為 Unicode ≥3.0 已收錄以下字符,在 GB 18030-2000 的官方文件附錄E 和 GB 18030-2005 的官方文件附錄E-表E.1,列出了以下字符在下一版 GB 13000(註:相當於 ISO/IEC 10646:2003)的位置。事實上,GB 18030-2000 和 -2005 已修改了它們所對應的 Unicode 對應。
GB碼位  字符  GBK 對應的造字區  GB 18030 對應的Unicode  
A8BFǹU+E7C8U+01F9
A989U+E7E7U+303E
A98AU+E7E8U+2FF0
A98BU+E7E9U+2FF1
A98CU+E7EAU+2FF2
A98DU+E7EBU+2FF3
A98EU+E7ECU+2FF4
A98FU+E7EDU+2FF5
A990U+E7EEU+2FF6
A991U+E7EFU+2FF7
A992U+E7F0U+2FF8
A993U+E7F1U+2FF9
A994U+E7F2U+2FFA
A995U+E7F3U+2FFB
FE50U+E815U+2E81
FE54U+E819U+2E84
FE55U+E81AU+3473
FE56U+E81BU+3447
FE57U+E81CU+2E88
FE58U+E81DU+2E8B
FE5AU+E81FU+359E
FE5BU+E820U+361A
FE5CU+E821U+360E
FE5DU+E822U+2E8C
FE5EU+E823U+2E97
FE5FU+E824U+396E
FE60U+E825U+3918
FE62U+E827U+39CF
FE63U+E828U+39DF
FE64U+E829U+3A73
FE65U+E82AU+39D0
FE68U+E82DU+3B4E
FE69U+E82EU+3C6E
FE6AU+E82FU+3CE0
FE6BU+E830U+2EA7
FE6EU+E833U+2EAA
FE6FU+E834U+4056
FE70U+E835U+415F
FE71U+E836U+2EAE
FE72U+E837U+4337
FE73U+E838U+2EB3
FE74U+E839U+2EB6
FE75U+E83AU+2EB7
FE77U+E83CU+43B1
FE78U+E83DU+43AC
FE79U+E83EU+2EBB
FE7AU+E83FU+43DD
FE7BU+E840U+44D6
FE7CU+E841U+4661
FE7DU+E842U+464C
FE80U+E844U+4723
FE81U+E845U+4729
FE82U+E846U+477C
FE83U+E847U+478D
FE84U+E848U+2ECA
FE85U+E849U+4947
FE86U+E84AU+497A
FE87U+E84BU+497D
FE88U+E84CU+4982
FE89U+E84DU+4983
FE8AU+E84EU+4985
FE8BU+E84FU+4986
FE8CU+E850U+499F
FE8DU+E851U+499B
FE8EU+E852U+49B7
FE8FU+E853U+49B6
FE92U+E856U+4CA3
FE93U+E857U+4C9F
FE94U+E858U+4CA0
FE95U+E859U+4CA1
FE96U+E85AU+4C77
FE97U+E85BU+4CA2
FE98U+E85CU+4D13
FE99U+E85DU+4D14
FE9AU+E85EU+4D15
FE9BU+E85FU+4D16
FE9CU+E860U+4D17
FE9DU+E861U+4D18
FE9EU+E862U+4D19
FE9FU+E863U+4DAE

GB 18030-2005與GB 18030-2000的分別

  • 夾附中日韓統一表意文字擴展B區漢字、朝鮮文、蒙古文(包括滿文、托忒文、錫伯文、阿禮嘎禮文)、德宏傣文、藏文、維吾爾文/哈薩克文/柯爾克茲文,和彝文的字形表。 韓文包含 3,376 個韓字加 69 個字母加 51 個兼容字母、 蒙古文包含 149 字、傣文包含 35 字、藏文包含 193 字、 維吾爾文包含 49 字加 153 個字母表達形式、 彝文包含 1,215 字(不包含 U+A4A2, U+A4A3, U+A4B4, U+A4C1, U+A4C5)。
  • GB 18030-2000 沒有把 ḿ 對應至 Unicode。在 GB 18030-2005 終於獲訂正。見官方文件附錄E-表E.2。
GB碼位  字符  GB 18030-2000 對應的造字區  GB 18030-2005 對應的Unicode  
A8BCḿU+E7C7U+1E3F

GB 18030 仍未訂正對應的字符

  • 在 GB 18030-2000 推出時,因未有中日韓統一表意文字擴展B區,以下字符被對應到造字區。 而在 GB 18030-2005 推出時,儘管 Unicode 已收錄了擴展B區, 但在 GB 18030-2005 標準中,以下字符仍然對應到造字區,未有作出修改。 見 WG2 N2773 文件。 結果,GB 18030-2005 重複收錄了以下 6 字兩次。
GB碼位  字符  GB 18030 對應的造字區  Unicode ≥3.1  因此而重複的GB碼位  
FE51𠂇U+E816U+2008795329031
FE52𠂉U+E817U+2008995329033
FE53𠃌U+E818U+200CC95329730
FE6C𡗗U+E831U+215D79536B937
FE76𢦏U+E83BU+2298F9630BA35
FE91𤇾U+E855U+241FE9635B630
  • 以下字符在 GB 18030-2000 時已有,而當時 Unicode 仍未有以下字符。 儘管 Unicode 在 4.1 版本,已經把以下字符悉數加入,但在 GB 18030-2005 標準中,以下字符仍然對應到造字區。 見 WG2 N2773 文件
GB碼位  字符  GB 18030 對應的造字區  Unicode ≥4.1  
A6D9U+E78DU+FE10
A6DAU+E78EU+FE12
A6DBU+E78FU+FE11
A6DCU+E790U+FE13
A6DDU+E791U+FE14
A6DEU+E792U+FE15
A6DFU+E793U+FE16
A6ECU+E794U+FE17
A6EDU+E795U+FE18
A6F3U+E796U+FE19
FE59U+E81EU+9FB4
FE61U+E826U+9FB5
FE66U+E82BU+9FB6
FE67U+E82CU+9FB7
FE6DU+E832U+9FB8
FE7EU+E843U+9FB9
FE90U+E854U+9FBA
FEA0U+E864U+9FBB

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值