如果是ASCII编码,从前向后,每一个大于0x80的字节和后面的字节共同构成一个非英文字符
如果是UNICODE编码,每两个字节构成一个字符
如果是UNICODE编码,每两个字节构成一个字符
如果是UTF-8等不定长编码,去查每种语言对应的数值范围
可以学一下C的转义字符的处理方式
1)printf 格式串 % 代表格式, %% 代表% 本身。
%%--->%
2)字符串反斜杠,\转义序列,\\反斜杠本身。
\\---->\
UNICODE 可以这么处理:
007C ===>|
007C7CXX===> 7CXX
7CXX 表示7C开头的任意汉字。
其实 UNICODE 本身是16 BITS ,可以直接识别。
只怕MBCS才是需要另外识别的。
不过MBCS 汉字每个字节高位为1,不会和7C混淆的。
不知哪里会有问题。