《Unicode之痛》摘抄

Unicode之痛原文链接

一、概念

  • 计算机只能看懂 bytes,计算机中一切均为bytes(字节):硬盘文件、网络传输、程序的输入、输出均由byte组成

  • Unicode 字符称为代码点(code point)用 U 后面加上 XXXX (其中, X 为16进制的字符)来表示字符

  • Unicode 标准定义了多种编码(encoding)方法将 bytes 表示成代码点;其中,对 Unicode 进行传播和存储的最流行编码方式为 UTF-8 ,它用不同的 bytes 来表示每一个代码点。


二、关于python

  • Python2 中,str对象存储的是 bytes 。带u前缀的字符串是“unicode” 对象,存储的是 code points

  • Unicode 字符串有 encode 方法来产生 bytesbytes 字符串有 decode 方法转换成 unicode ;两种方法都需要指定编码类型

  • Python 3 中,str 存储的是 unicode, bytes类型存储的是 byte 串。可以通过加b 前缀来制造 byte字符串


三、策略

  • 输入时,将 bytes流 解码成 unicode。

  • 程序中均使用 unicode

  • 输出时,编码成 bytes流。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值