分割符 汉字

如果是ASCII编码,从前向后,每一个大于0x80的字节和后面的字节共同构成一个非英文字符
如果是UNICODE编码,每两个字节构成一个字符

如果是UTF-8等不定长编码,去查每种语言对应的数值范围



可以学一下C的转义字符的处理方式
1)printf 格式串 % 代表格式, %% 代表% 本身。
%%--->%
2)字符串反斜杠,\转义序列,\\反斜杠本身。
\\---->\
UNICODE 可以这么处理:
007C ===>|
007C7CXX===> 7CXX
7CXX 表示7C开头的任意汉字。

其实 UNICODE 本身是16 BITS ,可以直接识别。
只怕MBCS才是需要另外识别的。
不过MBCS 汉字每个字节高位为1,不会和7C混淆的。
不知哪里会有问题。



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值