【Python基础】字符串与编码

字符串与编码

  • Unicode 是一种字符集,它定义了字符的标准化编码。
  • 而 UTF-8 是一种可变长度的编码方案,用于表示 Unicode 字符集中的字符。

在计算机内存中,统一使用Unicode编码(方便统一显示),当需要保存到硬盘或者需要传输的时候,就转换为UTF-8编码(方便储存节省空间)。

bytes数据类型的显示问题:

在字节模式下,每个字节可以显示为字符形式,但是这种显示方式只适用于在 ASCII 范围内的字符,即数值范围为 0 到 127 的字节。

对于超出 ASCII 范围的字节,它们的数值形式会以字节的十六进制表示形式显示,例如 \x80\xFF 等。这种显示方式更直观地表示字节的数值。

因此,才会有如下表示:

>>> 'ABC'.encode('ascii')
b'ABC'
>>> '中文'.encode('utf-8')
b'\xe4\xb8\xad\xe6\x96\x87'
>>> '中文'.encode('ascii')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)

\u 与 \x的区别

\u 是用于表示一个 Unicode 字符的十六进制转义序列。它用于表示范围从 U+0000 到 U+FFFF 的字符。

\x 是用于表示一个字节的十六进制转义序列。它通常用于表示字节的特定值,范围从 0x00 到 0xFF。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

TangerinePi

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值