非英文字符编解码及其在Python中的应用

最新推荐文章于 2021-01-29 05:16:52 发布

夜星繁

最新推荐文章于 2021-01-29 05:16:52 发布

阅读量707

点赞数

分类专栏： Python 文章标签：编解码 Python ASCII UTF Unicode

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_31117133/article/details/88138520

版权

本文介绍了字符编码的基础知识，包括ASCII、Unicode、UTF-8的区别与联系。讨论了Unicode作为全球字符集的必要性，以及UTF-8如何作为Unicode的高效实现。同时，提到了Python 2.7中处理非英文字符的注意事项，强调了从ASCII转为UTF-8编码的重要性，以及在输出时通过Unicode确保跨平台无乱码。

摘要由CSDN通过智能技术生成

关于编解码：

在计算机中，所有的字符都是以0、1的二进制的形式保存的。如何把一个字符转换成二进制这个过程就叫做编码，反过来如何把计算机中的二进制还原成一个字符叫做解码。

由此我们可以知道，要想正确的解码，必须知道是用什么规则编码的。假如我们有一种规则叫Ascii，在这种规则下字符‘a’会被存储为01100001，那么解码时如果按照这种规则解码就能够解出‘a’，但是如果按照其他规则解码，可能就解出来奇怪的字符了，这时就会出现乱码。

我们经常听说的Ascii、UTF8、gbk等等都是不同的规则。这样的规则有很多很多，但是在这些规则中，英文字符的编码往往都是一致的，而中文或日文则有的规则不支持，即使支持的规则各自定义也不同，所以会出现英文不容易出现乱码，而中文、日文字符不匹配时容易出现乱码。

编码分成两部分，一部分叫做字符集，规定了在这个规则里面，id和字符的对应关系。常见的字符集包括ASCII，Unicode等，比如我们都熟悉ASCII码表中的48号对应的字符是‘0’。另一部分是规则，主要规定的是用几位来表示字符，如何表示字符。比如UTF8和UTF16，字符集都是unicode，但是字长的定义不同，因此最后编码产生的结果也不同。

常见的编码格式：

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
非英文字符编解码及其在Python中的应用

关于编解码：在计算机中，所有的字符都是以0、1的二进制的形式保存的。如何把一个字符转换成二进制这个过程就叫做编码，反过来如何把计算机中的二进制还原成一个字符叫做解码。由此我们可以知道，要想正确的解码，必须知道是用什么规则编码的。假如我们有一种规则叫Ascii，在这种规则下字符‘a’会被存储为01100001，那么解码时如果按照这种规则解码就能够解出‘a’，但是如...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。