基本多文种平面是Unicode中的一个编码区段。编码从U+0000至U+FFFF。
常用汉字在此区间对应。
对应关系如下:
3400-4DBF:CJK 统一表意符号扩展 A (CJK Unified Ideographs Extension A)
4DC0-4DFF:易经六十四卦符号 (Yijing Hexagrams Symbols)
4E00-9FBF:CJK 统一表意符号 (CJK Unified Ideographs)
E000-F8FF:自造字区域 (共6400个自造字空间)
常用字占用2个字节,在多文种平面区。
冷僻字占用4个字节,在其它平面
如何判断一个字是常用字还是冷僻字?
UNICODE预留了一段区域,基本多语言平面内的字符在这段区域内不做映射,但其它区域在这段区域内做映射。
BMP内,从U+D800到U+DFFF之间的Code Point区段是永久保留不映射到字符
BMP之外占用四个字节 前两个字节为高位字节,后两个字节为低位字节
前两个字节的范围为:0xD800..0xDBFF
后两个字节的范围为:0xDC00..0xDFFF
因此,可用下述方法判断是否为冷僻字:
WCHAR wc[2]; IF(wc[0]>=0xD800&&wc[0]<=0xDBFF) 冷僻字; ELSE 常用字; |
参考资料:
http://dict.youdao.com/wiki/%E5%9F%BA%E6%9C%AC%E5%A4%9A%E6%96%87%E7%A7%8D%E5%B9%B3%E9%9D%A2/#