《Unicode之痛》摘抄

最新推荐文章于 2015-12-20 15:00:58 发布

温柔一cai刀

最新推荐文章于 2015-12-20 15:00:58 发布

阅读量439

点赞数

分类专栏： python 文章标签： unicode python

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/caiguoxiong0101/article/details/48106147

版权

python 专栏收录该内容

16 篇文章 1 订阅

订阅专栏

Unicode之痛原文链接

一、概念

计算机只能看懂 bytes，计算机中一切均为bytes(字节)：硬盘文件、网络传输、程序的输入、输出均由byte组成
Unicode 字符称为代码点（code point）用 U 后面加上 XXXX （其中， X 为16进制的字符)来表示字符
Unicode 标准定义了多种编码(encoding)方法将 bytes 表示成代码点；其中，对 Unicode 进行传播和存储的最流行编码方式为 UTF-8 ，它用不同的 bytes 来表示每一个代码点。

二、关于python

Python2 中，str对象存储的是 bytes 。带u前缀的字符串是“unicode” 对象，存储的是 code points
Unicode 字符串有 encode 方法来产生 bytes ； bytes 字符串有 decode 方法转换成 unicode ；两种方法都需要指定编码类型
Python 3 中，str 存储的是 unicode, bytes类型存储的是 byte 串。可以通过加b 前缀来制造 byte字符串

三、策略

输入时，将 bytes流解码成 unicode。
程序中均使用 unicode
输出时，编码成 bytes流。

温柔一cai刀

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《Unicode之痛》摘抄

python unicode 编码解码策略
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。