汉字对比世界上任何一种文字中无疑都是比较复杂和困难的,不同于几十个字母组合就能得到的语言,汉字将近有十万个,日常使用有几千字,据统计,1000个常用字能覆盖约92%的书面资料,2000字可覆盖98%以上,3000字则已到99%。
汉字计算机编码标准
最大的汉字编码是台湾地区的CNS11643,5.0版全字库可供查询的字共87,047个汉字、10771个拼音文字及894个符号。台港民间通用的大五码收录繁体汉字13053个。GB18030是中华人民共和国现时最新的内码字集,GBK收录汉字简体、繁体及20912个,而早期的GB2312收录简体汉字6763个。Unicode的中日韩统一表意文字基本字集则收录汉字20902个,总数亦高达七万多字。
汉字编码存在困难:
①数量庞大:一般认为,汉字总数已超过6万个(包括简化字)。虽有研究者主张规定3000多或4000字作为当代通用汉字,但仍比处理由二三十个字母组成的拼音文字要困难得多。
②字形复杂:有古体今体,繁体简体,正体异体;而且笔画相差悬殊,少的一笔,多的达36笔,简化后平均为9.8笔。
③存在大量一音多字和一字多音的现象:汉语音节416个,分声调后为1295个(根据《现代汉语词典》统计,轻声39个未计