写给大忙人看的工作中的知识:锟斤拷问题

乙:嗨,你帮我个忙,今天领导说要我处理这个表格,可我看不懂这是啥玩意,你帮我瞧瞧。
在这里插入图片描述
甲:哦,这是乱码。
乙:为什么会出现乱码呢?
甲:说来话可长了…
乙:快说!快说!
甲:美国人发明电脑时,需要存储字符,所以使用了一个数字一个字符的方法,有128个字符。
乙:太少了。
甲:嗯。确实少。它只有7个比特,当时有个1MB内存大家都来羡慕你。请看表
在这里插入图片描述
乙:好像不够啊…
甲:没错。所以各个国家为了语言要求,有自己的编码形式。我们中国有GBK、GB2312等。
乙:那我们打字需要的制表符之类的呢?
甲:有ASCII扩展。ASCII变成了8比特。

在这里插入图片描述
甲:可是,如果你要给国外的人发一封信呢?
一打开:
😒
在这里插入图片描述

甲:为了统一,Unicode诞生了。
UTF-16
甲:UTF16是一种Unicode,确切地说是早期的Unicode。
甲:2个字节为一个字符,可以有65536个字符。:
乙:真多。
甲:光中日韩文字就占一半。
乙:可不是嘛。中华文化博大精深嘛。
甲:可是Unicode5.0发现不够。
乙:怎么能不够呢?
甲:你不信?看看Unicode表
乙:还真是。
甲:于是!
乙:鱼是?我知道鱼是什么!就是🐟呗!
甲:别抬杠。
甲:有20比特,1114111个字符。
乙:太多了。哎?乱码是怎么来的呢?
甲:别急。现在,系统一般只支持65535个字符的UTF-16,所以遇到UTF-16无法显示的就用0xFFFD来代替。
乙:0xFFFD长什么样?
甲:� 就是这样。
乙:┗|`O′|┛ 哦~~
甲:我们中国系统用的是GBK/GB2312格式,如果发来一个UTF8格式的文件,不转换直接解码会造成乱码。
乙:噢。那锟斤拷是如何产生的呢?
甲:如果有连续两个�,那么UTF-8是这样的:0xEF 0xBF 0xBD

0xEF 0xBF 0xBD
甲:按照GBK方式解码是0xEF 0xBF, 0xBD 0xEF, 0xBF 0xBD,即锟斤拷。
乙:噢。前段时间在朋友圈看到有人发一句奇怪的话:
手持两把锟斤拷 口中疾呼烫烫烫 脚踏千朵屯屯屯 笑看万物锘锘锘
乙:我还以为他脑子有毛病呢。

·····································
·
·
·
· 第二天…
·
·
·
·································
甲:你怎么啦?
乙:锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷…
甲:什么?
乙:我的嘴是UTF-8的,你的耳朵是GBK的,咱俩乱码了…



                             于是。

乙:不要啊!啊~~~~~~~~

-------------------------------- 完-------------------------------

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值