关于IO流处理数据时的GBK编码问题

GBK编码是一种双字节编码标准,用于表示中文字符。在GBK中,英文和ASCII字符依然占用1个字节,但最高位为0,而中文字符占用2个字节,最高位为1。在解码时,通过判断字节的最高位来确定字符的完整字节数,从而正确解析出字符串。这种机制有效地节省了存储空间并确保了字符的正确显示。
摘要由CSDN通过智能技术生成

不管是使用的哪种编码(字符集),在底层存储的时候都是0,1来存储的。
但是在GBK编码(一个字符占用2个字节)中,为了节省空间,英文字符和数字也就是ASCII码那些,还是占用1个字节。
假设需要存储 “abc中国”,那么此时如果用gbk编码存储,应该是 3 + 4 = 7个字节。
问题来了,a,b,c这三个字符每个只占用一个字节,而中,国这两个字符每个占用2个字节,计算机在解码
的时候如何知道当前这一个字节是一个完整的字符还是只是一个汉字的一半字节呢?

GBK编码解决:在进行解码的时候,如果当前的这个字节表示的是一个完整的字符,则最高位是0,如字符a只占用一个字节,则最高位是0,
如0xxxxxxx,最高位是0的,表示当前字节是一个完整的字节,最高位是1,表示当前字节和下一个字节是一个完整的字符。这样就巧妙解决了在解码的时候到底是取一个字节还是两个字节。妙哉妙哉!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值