Python数据类型之字符串和字节

最新推荐文章于 2024-07-21 00:15:00 发布

stdcoutzrh

最新推荐文章于 2024-07-21 00:15:00 发布

阅读量1.8k

点赞数

本文链接：https://blog.csdn.net/PecoHe/article/details/89918996

版权

Python数据类型之字符串和字节

4.1 字符串

4.1.1 字符串定义与基本操作

字符串是一种不可变的序列。顾名思义，字符串就是一组字符组成的序列，每个字符就是序列中的一个元素。

字符串可以包含零个或多个字符，字符需要使用引号界定。引号可以是：

单引号
双引号
三引号

创建字符串：

str = "Hello World"

其中，单引号与双引号是完全等价的，而三引号可以在字符串内部换行。如果单（双）引号也需要换行，可以使用续行符“\”，三引号中使用续行符，则不会产生换行。

多个字符串常量也可以“无缝”的组合在一起。例如：

str = “Hello”“World”

字符串的操作：

索引
切片
运算
遍历每个字符

4.1.2 转义序列

转义是当由于技术等原因、无法直接在代码中写出所要的字符时采用的，以多个字符的有序组合来表示原本需要的字符的手段，而转义序列（escape sequence）指在转义时使用的有序字符组合。

Python转义序列表：
在这里插入图片描述

4.1.3 字符串相关方法

count(sub[, start[, end]])
find / index(sub[, start[, end]])
rfind/ rindex(sub[, start[, end]])
format(*args, **kwargs)
join(iterable) 
replace(old, new[, count])
lstrip / rstrip / strip([chars]) 
split / rsplit(sep=None, maxsplit=-1)
splitlines([keepends])
startswith (prefix[, start[, end]]) 
endswith (suffix[, start[, end]])
upper / lower()
capitalize()
partition / rpartition(sep)
isalpha()
isnumeric()
isdigit()
isdecimal()
isidentifier()
islower / isupper()
isspace()

其中isnumeric，isdigit与isdecimal三者之间的区别如下：

三者之间是包含关系，isnumeric范围最大，isdigit其次，isdecimal最小。

4.2 字节

4.2.1 定义与基本操作

bytes是一系列字节组成的序列，是不可改变的。bytes每个元素的值在[0, 255]范围内（无符号单字节）。

4.2.2 相关方法

bytes的方法与str相似，可参考str的方法。

4.3. 字符集与编码

字符集，就是一组字符组成的集合。常见的字符集有ASCII，BIG5，Unicode，GBK等。

不同的字符集，包含的字符个数也可能是不相等的。在存储字符时，我们需要将字符转换成二进制值，称为编码，同样，在读取保存的二进制值时，我们需要将二进制值还原成字符，称为解码。可以说，字符集，就是规定了字符与二进制之间如何进行转换的规则，即编码与解码的规则。

因此，我们如果对某一个文本文件采用了一种编码方式保存，在解析该文件内容时，就需要采用相同的编码方式解码，否则就很可能造成乱码的现象，原因就是编码与解码的方式不统一造成的。

4.3.1 Unicode与UTF-8

在Python中，字符串str类型使用的字符集是Unicode字符集，该字符集是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。例如，ASCII（American Standard Code for Information Interchange，美国信息交换标准代码）字符集只能支持一些西方字符，不支持汉字，日文等语言字符。目前Unicode字符集包含1114112个编码值（0x0 ~ 0x10FFFF）。
然而，由于Unicode取值范围的广泛性，这可能会对存储带来一些问题。对于码值小的字符，只需要使用1个字节存储就够了，但是，对于码值大的字符，却需要使用更多的字节去存储。如果使用定长的方式存储，这势必会造成存储空间的浪费。因此，后来人们创建了UTF-8的编码方式。UTF-8（8-bit Unicode Transformation Format）是针对Unicode设定的可变长度字符编码，是对Unicode字符集的一种通用转换格式。UTF-8编码使用1 ~ 4个字节来表示Unicode（0x000000 ~ 0x10FFFF）区间的值。

如下表：

取值	占用空间（字节）
0x000000 ~ 0x00007F	1
0x000080 ~ 0x0007FF	2
0x000800 ~ 0x00FFFF	3
0x010000 ~ 0x1FFFFF	4

Python3默认文件的编码方式为UTF-8编码（Python2默认为ASCII）。

4.3.2 str与bytes

我们可以在str（字符串）与bytes（字节）之间进行转换。通过调用str的encode方法可以返回字符串编码之后的结果（bytes类型）。同样，通过调用bytes类型的decode方法，可以将字节序列解码，转换回编码之前的字符串（str类型）。

此外也可以通过bytes与str函数，来实现编码与解码的操作。

4.4 格式化输出

有时候，多个字符串进行拼接会显得过于繁琐，这在数字与字符串拼接时更加明显，因为我们不得不使用str进行转换才行。而且，有时候我们可能需要对输出格式进行严格的控制，例如，小数点后保留几位，字符占用的宽度等。此时，我们就可以对字符串进行格式化，以输出我们期望的形式。

在Python中，我们可以采用两种方式进行字符串的格式化：

旧式格式化——使用“%”的形式。
新式格式化——使用str类的format方法
最新格式化——使用格式化字符串常量

4.4.1 旧式格式化——使用“%”的形式

在字符串对象后，可以使用%来进行格式化，格式如下：

格式化字符串%（值的元组或字典）

格式化字符串中的占位符格式为：

% [(关键字)][转换标记][最小宽度][.精度]转换格式

其中，%与转换类型是必选的，其他是可选的。说明如下：

%：指出这是占位符的开始。
关键字：用于匹配字典中的键，使用键所对应的值替换。

转换格式：

格式	说明
d，i，u	有符号十进制格式。
o	有符号八进制格式。
x	有符号十六进制格式。
X	有符号十六进制格式。
f	浮点格式，精度默认为6。
F	浮点格式，精度默认为6。
e	科学计数法格式，精度默认为6。
E	科学计数法格式，精度默认为6。
g	假设将数值转换成指数格式。
G	假设将数值转换成指数格式。
c	单字符格式，可以是单个字符或者整数值。
a	将Python对象使用ascii函数转换成字符串格式。
s	将Python对象使用str函数转换成字符串格式。
r	将Python对象使用repr函数转换成字符串格式。
%	转换成普通的%字符。