GBK转UTF8学习笔记

UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,又称万国码 如果UNICODE字符由2个字节表示,则编码成UTF-8很可能需要3个字节。而如果UNICODE字符由4个字节表示,则编码成UTF-8可能需要6个字节。用4个或6个字节去编码一个UNICODE字符可能太多了,但很少会遇到那样的UNICODE字符

Byte 1Byte 2 Byte3
0xxxxxxx  
110xxxxx10xx xxxx 
1110xxxx10xx xxxx10xx xxxx

 

 //单字节字符 1个字节的UTF-8十六进制编码一定是以比8小的数字开头的

//双字节字符 2个字节的UTF-8十六进制编码一定是以C或D开头的

//三字节字符 3个字节的UTF-8十六进制编码一定是以E开头的

// utf-8\u4E00-\u9FFF,这个包含了常用的汉字、日文和韩文

// GBK 8140至FEFE

 

GBK中文是由2个字节16位组成

转UTF-8时,变成3个字节

 

Byte 1Byte 2 Byte3
1110+前4位10+后6位10+最后6位

 

部分代码如下

// 第一个这字放4位,第二个字节放6位,第三个字节放6位
b[0] = (byte) (0xe0 | (m >> 12));
b[1] = (byte) (0x80 | ((m >> 6) & 0x3f));
b[2] = (byte) (0x80 | (m & 0x3f));
return new String(b, "UTF-8")

  

这样就可以将GBK中文转成utf-8了,当然实际转换过程中还要考虑英文数字等其它字符的问题。

 

 

 

 

 

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值