浅谈unicode 内码

 

前段时间做了个程序从hotmail获取好友列表,发现返回来的都是类似飓这种代码

我本来想返回一个汉字“飓”,居然返回来的是飓后来上网查了下,原来这个就是传说中的unicode汉字内码,并且还有一个巨大的内码和汉字的对应表

 

如果要将内码转换为汉字,难道要加载这个对应表做映射?,这个实在是麻烦,通过一些简单的分析,发现了两者之间的对应规律,其实很简单,汉字的utf-16编码的字节为4个,取低位的两个字节然后做一个双字节转无符号整数的计算就得到了这个内码

 

现在的情况的需要从内码转为汉字,此过程就是上面的过程的一个逆过程,了解了上面的冬冬,做个反转换就简单了

 

比如汉字“39123---16进制 98d3---〉字节数组[-104, -45]----utf-16编码成“飓“

 

同理用于其它特殊字符的unicode内码

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值