gbk汉字编码拼音对照表_预习部分:汉字编码方案

汉字编码包括GBK、GB2312和Unicode等多种方案,汉字信息熵高,使得编码面临数量庞大、字形复杂和一音多字等问题。GBK18030是最新的编码标准,兼容少数民族文字。UTF-8为万国码,适用于多语种显示。
摘要由CSDN通过智能技术生成

5d4c30fdc63e7c8b872123bdb4ea9052.png

汉字对比世界上任何一种文字中无疑都是比较复杂和困难的,不同于几十个字母组合就能得到的语言,汉字将近有十万个,日常使用有几千字,据统计,1000个常用字能覆盖约92%的书面资料,2000字可覆盖98%以上,3000字则已到99%。

汉字计算机编码标准

最大的汉字编码是台湾地区的CNS11643,5.0版全字库可供查询的字共87,047个汉字、10771个拼音文字及894个符号。台港民间通用的大五码收录繁体汉字13053个。GB18030是中华人民共和国现时最新的内码字集,GBK收录汉字简体、繁体及20912个,而早期的GB2312收录简体汉字6763个。Unicode的中日韩统一表意文字基本字集则收录汉字20902个,总数亦高达七万多字。

汉字编码存在困难:

①数量庞大:一般认为,汉字总数已超过6万个(包括简化字)。虽有研究者主张规定3000多或4000字作为当代通用汉字,但仍比处理由二三十个字母组成的拼音文字要困难得多。

②字形复杂:有古体今体,繁体简体,正体异体;而且笔画相差悬殊,少的一笔,多的达36笔,简化后平均为9.8笔。

③存在大量一音多字和一字多音的现象:汉语音节416个,分声调后为1295个(根据《现代汉语词典》统计,轻声39个未计

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值