原创文章,转帖请注明出处:
http://blog.csdn.net/palm_civet/archive/2010/11/20/6023857.aspx
根据维基百科上的一篇文章编写,比较了一下gbk字符集,utf8检测与gbk冲突的汉字不多基本可以满足要求了。
gbk:
range | byte 1 | byte 2 | code points | characters | |||
---|---|---|---|---|---|---|---|
GB 18030 | GBK 1.0 | Codepage 936 | GB 2312 | ||||
Level GBK/1 | A1 –A9 |
A1 –FE |
846 | 728 | 717 | 702 | 682 |
Level GBK/2 | B0 –F7 |
A1 –FE |
6,768 | 6,763 | 6,763 | 6,763 | |
Level GBK/3 | 81 –A0 |
40 –FE except 7F |
6,080 | 6,080 | 6,080 | ||
Level GBK/4 | AA –FE |
40 –A0 except 7F |
8,160 | 8,160 | 8,080 | ||
Level GBK/5 | A8 –A9 |
40< |