Python编程为什么要用uft-8?如何查看字符串的编码及进制转换

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


前言

utf-8是可变长字符编码格式,在日常应用中如果只使用英文则使用ASCII编码即可满足要求,但如果需要使用中文或其他语言只有ASCII编码就不能表示如此多的字符了,这时就出现UNICODE编码将所有其他语种都包含在同一编码范围内,这样就可以打印其他语种的字符了,但是Unicode 只是对字符编码做了规范,并未对字符如何存储做实现,utf-8就是定义了unicode存储的最小bit数8位,英文数字及其他Ascii码可以占一个字节,中文字符占用3个字节,具体的实现方式可以参考网络上的utf-8介绍


一、打印字符串

在字符串前面添加前缀,r,u,b有什么区别?

  • r 代表在打印字符串时不进行转义,直接将字符串按字面打印出来
  • u代表在打印字符串以Uncode进行编码
  • b代表将字符串字节进行转换
print(r'Hello\n')
print(u'Hello\n')
print(b'Hello\n')

三个语句实际打印效果如下:

Hello\n
Hello

b'Hello\n'

二、将字符串转换成byte序列并打印编码

英文字符打印:

str1 = b'abcdefg1234'
print(str1[0])
for index in str1:
    print(index)
    print(hex(index))

输出结果

97
97
0x61
98
0x62
99
0x63
100
0x64
101
0x65
102
0x66
103
0x67
49
0x31
50
0x32
51
0x33
52
0x34

三、打印中文字符编码

打印中文字符串时不能直接在字符串前加前缀b,否则会报警。我们需要首先调用字符串函数encode 将字符串编码成byte序列,然后可以按照列表形式或For 语句打印返回的byte序列;
反之,也可以将列表转换成字符串,调用列表的decode函数

strC = '中文123456'
print(strC[0])
print(strC.encode('utf-8'))
print(strC.encode('utf-8')[0])
print(len(strC.encode('utf-8')))
print(strC.encode('utf-8').decode('utf-8'))

中
b'\xe4\xb8\xad\xe6\x96\x87123456'
228
12
中文123456

四、数据格式转换

  • ord()___查询字符的Unicode码,返回的是十进制的Unicode编码
print(ord('文'))

输出:

25991

  • chr()___与ord()相反,通过unicode十进制码返回相应的字符
print(chr(ord('文')))

输出:

注意,ord()查询的是字符在Unicode的数值,并不是字符串在utf-8编码下的数值,utf-8下数值存储是依照一定格式的,其数值转换成十进制不是Unicode的十进制值


  • ascii()___将字符串转换成Ascii格式,如果字符串中存在其它字符则用\u或\x表示
print(ascii('中文abc'))#将字符串转换为ASCii格式,如果字符串中存在其它字符则用\u或\x表示
print(ascii('abc123'))
print(chr(97))
print(hex(189))
print(chr(0x6587))

输出:

'\u4e2d\u6587abc'
'abc123'
a
0xbd
文

  • int()___整数数值转换,int()有两个参数,如果要输出10进制值,则前面可以写数值或string,如果要输出其它进制数值则第一个参数需要为数值(不必加进制前缀),后一个参数需要填写前一个数值或string是哪个进制的
print(0o123)
print(0x12a)
print(int('12a',16))
print(int(0x1231))

输出:

83
298
298
4657
  • hex() 将整数转换成十六进制数
  • bin() 将整数转换成二进制数
print(bin(255))
print(hex(255))

输出:

0b11111111
0xff

总结

  • 将字符串编码为byte列表可以通过列表对字符串中的字符进行识别,比如是否包含中文,是否包含数字;
  • 如果简单的判断可以直接调用字符串自带的相关函数 ,具体哪些方法可以参考官方手册
  • 将英文或数字打印字符串可以直接以16进制或其他进制转换输出
  • 如果字符串中包含中文需要调用字符串函数encode()先将字符串转换成byte再打印,直接在中文字符串前加b不能直接实现转换
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值