粘贴和复制下的字符编码

最新推荐文章于 2023-04-11 20:57:34 发布

eastage_leo

最新推荐文章于 2023-04-11 20:57:34 发布

阅读量2k

点赞数 2

分类专栏： Programming 文章标签： character windows table list 存储 360

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/eastage_leo/article/details/5947852

版权

Programming 专栏收录该内容

10 篇文章

订阅专栏

直入正题，开始：

比如一个简单的繁体“絲”字，从网页中拷贝(Ctrl + C)下来，然后粘贴(Ctrl + V)到简单的文本文件中，

对于用户而言，这个字都是能被始终正常显示的。

背后发生的事情：

1. 首先了解“絲”字的编码

在GBK的编码系统中，该字的编码是 0xBD 0x7A

(http://www.360doc.com/content/05/0801/15/305_4166.shtml )

在UNICODE的编码系统中，该字的编码是 0x7D 0x72

(http://www.nengcha.com/code/unicode/ )

参考UTF-8对Unicode编码的书写规则，该字的编码又被变化成了

1110 0111 1011 0101 1011 0010 即 0xE7 0xB5 0xB2

(http://www.cppblog.com/kb/archive/2005/09/19/320.aspx )

2. 开始复制和粘贴

从UTF8编码的网页中拷贝这个字，实际上这个字已经从网页编码变成了操作系统内码(Windows中文系统应该就是GBK)

也就是从上述的Unicode的UTF8形式，转换成了GBK码

这样也就意味着，如果你是粘贴到系统的一个简单文本中，那么就是GBK的“絲”；

而粘贴并存储到一个UTF8的网页，那么就是UTF8的“絲”。

UTF8 Character Table list:

http://www.utf8-chartable.de/unicode-utf8-table.pl

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。