浅谈ISO/IEC 10646编码

甚麼是 ISO 10646 國際編碼標準

為提供一個共通的技術基礎以處理不同語文的電子資料,國際標準化組織 (ISO) 發展了一套名為 ISO 10646 的國際編碼標準。該標準為世界各種主要語文的字符包括繁體及簡體的中文字,編訂統一的內碼。

各種語文的字符各有不同。為了在電腦及電子裝置內處理各地區本身的字符,世界各地採用了不同的編碼標準。例如香港及台灣使用繁體字,通常採用「大五碼」編碼標準。中國內地使用簡體字,通常採用「國標碼」編碼標準。各種不同的編碼標準互不兼容,一個編碼在不同的編碼標準內可能代表不同的字符,導致某一地區發出的電子資訊,在傳送到其他地區的電腦系統時,可能會出現亂碼或某些字符不能正確地顯示等問題。即使可使用轉換編碼的軟件以顯示不同編碼的資料,但這不單費時失事,更未必能完全解決問題。

 

制訂 ISO 10646 國際編碼標準的目的,便是為了解決上述問題。該編碼標準涵蓋了各種主要語文的字符,包括繁體及簡體的中文字。ISO 10646 國際編碼標準提供了一套統一的字符編碼標準,方便各地的電腦用戶進行電子通訊及資料交換。採用該標準後,世界各地不同的電腦系統之間便能更準確地儲存、處理、傳遞及顯示各種語文的電子資訊,從而加強各地間電子資訊的流通及推動電子交易的進行。

 

ISO 10646 國際編碼標準的發展情況

國際標準化組織於一九九三年發表 ISO 10646 國際編碼標準的首個版本,全名是「ISO/IEC 10646-1:1993」,並在二零零零年發表了「ISO/IEC 10646-1:2000」。「ISO/IEC 10646-1:2000」是「ISO/IEC 10646-1:1993」的更新版本,它包括了「ISO/IEC 10646-1:1993」內的 20,902 個表意文字及新增收於擴展區 A 6,582 個表意文字,即共 27,484 個表意文字。國際標準化組織在二零零一年十一月發表了「ISO/IEC 10646-2:2001」,作為對「ISO/IEC 10646-1:2000」的補充。「ISO/IEC 10646-2:2001」於擴展區 B 新增了 42,711 個表意文字,使 ISO 10646 國際編碼標準所包括的表意文字總數超逾 70,000個,其中包括所有收錄在《康熙字典》、《漢語大字典》和《漢語大詞典》內的漢字。國際標準化組織於二零零四年四月發表了「ISO/IEC 10646:2003」。「ISO/IEC 10646:2003」合併了「ISO/IEC 10646-1:2000」和它的補充版本「ISO/IEC 10646-2:2001」而成為一個單一發行本。因此,「ISO/IEC 10646:2003」內的表意文字與「ISO/IEC 10646-1:2000」附帶「ISO/IEC 10646-2:2001」內的表意文字是相同的。

表意文字是指一些字形與字義具有關係的文字,例如漢字。把表意文字收納在 ISO 10646 國際編碼標準的工作是分三期進行的,即擴展區 A、擴展區 B 及擴展區 C 等三個階段。擴展區 A 及擴展區 B已分別隨「ISO/IEC 10646-1:2000」及「ISO/IEC 10646-2:2001」獲得發表。至於擴展區C的工作計劃,國際標準化組織會在稍後時間決定。

國際標準化組織及 Unicode 學術學會維持 ISO 10646 國際編碼標準及統一碼的同步發展。有關 ISO 10646 國際編碼標準 / 統一碼的收字資料,請參閱 Unicode 學術學會的網頁 http://www.unicode.org/charts/

ISO 10646 的表意文字

表意文字是指一些字形與字義具有關係的文字。ISO 10646則是指由國際標準化組織 (ISO) 所發展的一套國際編碼標準。該標準把所有中文字符及其他語言(例如日語的 Kanzi 和韓語的 Hanja)中近似中文的字符統稱為漢字。

ISO 10646 國際編碼標準的漢字被劃分入三個主要編碼區,即中日韓表意文字區、中日韓表意文字區擴展區 A 及中日韓表意文字區擴展區 B。中日韓表意文字區和擴展區 A 的表意文字在二零零零年隨「ISO/IEC 10646-1:2000」公佈﹔擴展區 B 的表意文字則在二零零一年十一月隨「ISO/IEC 10646-2:2001」發表。

 

採用ISO 10646擴展區 B 的好處

擴展區 B 如中日韓表意文字和擴展區 A 一樣,也包括了各界收集的通用中文字符,而這些字符已被納入ISO 10646

ISO 10646國際編碼標準在收納擴展區 B 後,所包含的表意文字總數增至逾 70,000個,其中包含了所有收錄在《康熙字典》、《漢語大字典》和《漢語大詞典》的漢字。採用了ISO 10646擴展區 B 後,市民能更有效和準確地使用更多通用的中文字符進行日常電子通訊。

 

ISO 10646擴展區 B 的結構

在結構上,中日韓表意文字區和中日韓表意文字區擴展區 A 的表意文字可用十六位元碼位組成 (例如﹕十六進制數值4E00),但「ISO/IEC 10646-2:2001」內的中日韓表意文字區擴展區 B 的表意文字則須用三十二位元碼位組成 (例如﹕十六進制數值00020000,通常簡化為20000)

ISO 10646 擴展區 B 網頁

ISO/IEC 10646-2:2001」包含了42,711個表意文字﹐當中的1,640個屬《香港增補字符集─2001》新增的字符。

ISO 10646擴展區 B 網頁載有更詳細的資料,說明系統要求﹑參考字形與輸入法軟件,以及如何檢視「ISO/IEC 10646-2:2001」或 ISO/IEC 10646:2003」內擴展區 B 的《香港增補字符集─2001》字符。

以下動畫說明在日常中文電子通訊中採用ISO 10646擴展區 B 的例子及其靈活性。

在日常中文電子通訊中使用ISO 10646擴展區 B 的例子
採納ISO 10646擴展區 B 的靈活性

 

表意文字小組

表意文字小組是國際標準化組織內 ISO/IEC JTC1/SC2/WG2 (見下文) 轄下的工作單位,專責發展 ISO 10646 國際編碼標準內表意文字(指中、日、韓及亞洲各地使用的漢字)方面的工作。表意文字小組的任務,是向國際標準化組織提交表意文字字符,以收納在 ISO 10646 國際編碼標準內。表意文字小組已制訂中日韓表意文字區 (CJK Unified Ideographs Block)、中日韓表意文字區擴展區 A (CJK Unified Ideographs Extension A Block) 及中日韓表意文字區擴展區 B (CJK Unified Ideographs Extension B Block),並且正在發展擴展區 C,以期把世界各地使用的表意文字盡量收納在 ISO 10646 國際編碼標準內。

表意文字小組成員

表意文字小組成員來自中國、香港、澳門、台北市電腦商業同業公會、新加坡、日本、南韓、北韓、越南及美國。此外,Unicode 學術學會亦有代表參加該小組的會議,協調 ISO 10646 國際編碼標準及統一碼之間的同步發展工作。

表意文字小組的文件

有關表意文字小組的各項文件,包括會議議程、提交國際標準化組織的會議報告、會議時達成的決議等,可在下列網站內查閱 http://www.cse.cuhk.edu.hk/~irg/

ISO/IEC JTC1/SC2/WG2

ISO 10646 國際編碼標準是由國際標準化組織轄下一個名為 ISO/IEC JTC1/SC2/WG2 的工作小組所制訂。Joint Technical Committee on Information Technology (ISO/IEC JTC1) 是「國際電工技術委員會」(International Electrotechnical Commission,簡稱 IEC) 及國際標準化組織議定成立的機構,其工作範圍涵蓋兩個協議機構有關資訊科技方面的工作。ISO/IEC JTC1 下設有一個名為 ISO/IEC JTC1/SC2 的小組委員會,負責把各種語文字符集的內碼標準化。這個小組委員會轄下有一個名為 ISO/IEC JTC1/SC2/WG2 的工作小組,負責發展 ISO 10646 國際編碼標準。

統一碼 (Unicode)

每當提及統一的編碼標準,不少人可能會聽過統一碼 (Unicode) 這個名稱。相信大家都會關注統一碼與 ISO 10646 國際編碼標準能否互相兼容。

統一碼是由一個名為 Unicode 學術學會的機構制訂的字符編碼系統,以支援世界主要語文的書面文本的交換、處理及顯示。Unicode 學術學會的成員大部分為電腦軟硬件的供應商。

在一九九一年,國際標準化組織與 Unicode 學術學會決定共同制訂一套適用於多種語文文本的通用編碼標準。自此以後,該兩個組織便一直緊密合作,同步發展 ISO 10646 國際編碼標準及統一碼。國際標準化組織提供 ISO 10646 國際編碼標準內的字符及編碼資料,Unicode 學術學會則對這些字符及編碼資料提出應用的方法以及語義資料作補充。ISO 10646 國際編碼標準與統一碼所包含的字符及使用的編碼是相同的。統一碼可被視為是 ISO 10646 國際編碼標準的實踐版。因此,支援統一碼的產品,亦支援 ISO 10646 國際編碼標準。

Unicode 學術學會制訂的統一碼 3.0 版本 ,於二零零零年二月正式推出。這個版本收納了 49,194 個來自世界各地不同語文的字符,其中包括 27,484 個東亞的表意文字(漢字)。統一碼 3.0 版本是與 ISO/IEC 10646-1:2000 對應的版本。

統一碼 3.1 版本於二零零一年三月推出。這個版本的主要特點是增加了 44,946 個新字符,其中 42,711 個為表意文字。連同統一碼 3.0 版本原有的字符,統一碼 3.1 版本共收錄了 94,140 個字符,其中表意文字總數超過 70,000 個。

統一碼 3.2 版本於二零零二年三月推出。雖然這個版本包括了 1,016 個新字符,但其包含的表意文字則與統一碼 3.1 版本相同。

統一碼的最新版本是於二零零三年四月推出的 4.0 版本。雖然這個版本包括了 1,226 個新字符,但其包含的表意文字則與統一碼 3.1 版本相同。統一碼 4.0 版本是與「ISO/IEC 10646:2003」對應的版本。

有關 ISO 10646 國際編碼標準 / 統一碼的收字資料,請參閱 Unicode 學術學會的網頁 http://www.unicode.org/charts/

編碼標準比較

大五碼 (Big-5)

大五碼是台灣各大中文軟件發展商十多年前訂立的編碼標準,包含約 13,000 個繁體中文字。大五碼也是在香港普遍採用的中文編碼標準。

國家標準碼 (GB)

國家標準碼是中國政府的國家編碼標準。它的最新版本是於二零零零年公佈的 GB 18030-2000,包括約 27,000 個中文字符。

ISO 10646 國際編碼標準

ISO 10646 國際編碼標準是由國際標準化組織制訂的編碼標準,包含世界上主要語文的字符。其中的漢字部分,將中國、台灣、日本和韓國所訂立的漢字編碼標準統一,成為一個約有 70,000 個漢字的字集。ISO 10646 國際編碼標準可被視為與統一碼 (Unicode) 等同。

 

編碼

ISO 10646
國際編碼標準

國家標準碼
GB 18030-2000

大五碼
(Big-5)

特點

統一中國、台灣、日本、韓國所訂立的漢字標準,包含所有大五碼及國家標準碼的字符

內碼編排與 ISO 10646 國際編碼標準不同

只包含繁體中文字

支援字符

在同一界面下可顯示繁體及簡體中文字

包括 ISO/IEC 10646-1:2000 內的字符

在一個界面下只可顯示繁體中文字

通用地區

世界各地

中國

香港、台灣

制訂機構

國際標準化組織

中國政府

台灣中文軟件發展商

漢字字符數目

70,000

27,000

13,000

 

 

系統要求

要正確顯示「ISO/IEC 10646:2003」的字符,請確保你的電腦運行於支援「ISO/IEC 10646:2003」的平台 (例如:中文或英文視窗 XP) 和應用軟件 (例如:Mozilla 1.5Internet Explore 6.0 Microsoft Office XP)

請按 這裡http://www.info.gov.hk/digital21/chi/hkscs/terms/terms35.html 下載系統要求及安裝指引。
請按 這裡http://www.info.gov.hk/digital21/chi/hkscs/terms/terms36.html 下載參考字型及輸入法軟件。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值