字符串基本知识
常规
#原始字符串
对于路径上存在如C:\nabcd或者字符串长度太长且多转义字符是可以 使 用原始字符串(在字符串前加 r )
>>>print(r'C:\Program Files\fnord\foo\bar\baz\frozz\bozz')
C:\Program Files\fnord\foo\bar\baz\frozz\bozz
将指定的值转换为字符串。用于转换 bytes 时,可指定编码和错误处理方式
str(object)
使用ASCII、UTF-8和UTF-32编码将字符串转换为 bytes
>>> "Hello, world!".encode("ASCII")
b'Hello, world!'
>>> "Hello, world!".encode("UTF-8")
b'Hello, world!'
>>> "Hello, world!".encode("UTF-32")
b'\xff\xfe\x00\x00H\x00\x00\x00e\x00\x00\x00l\x00\x00\x00l\x00\x00\x00o\x00\x00\x00,\x00\x00\x00\x00\x00\x00w\x00\x00\x00o\x00\x00\x00r\x00\x00\x00l\x00\x00\x00d\x00\x00\x00!\x00\x00\x00'
从中可知,使用前两种编码的结果相同,但使用最后一种编码的结果长得多
字符串的基本操作
1 字符串是不可变的,因此所有的元素赋值和切片赋值都是非法的。
2 用input()输入的是字符串
3编写新代码时,应选择使用字符串方法 format ,它融合并强化了早期方法的优点。使用这种方法时,每个替换字段都用花括号括起,其中可能包含名称还可能包含有关如何对相应的值进行转换和格式设置的信息。在最简单的情况下替换字段没有名称或将索引用作名称。
>>> "{}, {} and {}".format("first", "second", "third")
'first, second and third'
>>> "{0}, {1} and {2}".format("first", "second", "third")
'first, second and third'
然而,索引无需像上面这样按顺序排列。
>>> "{3} {0} {2} {1} {3} {0}".format("be", "not", "or", "to")
'to be or not to be'
命名字段的工作原理与你预期的完全相同。
>>> from math import pi
>>> "{name} is approximately {value:.2f}.".format(value=pi, name="π")
'π is approximately 3.14.'
当然,关键字参数的排列顺序无关紧要。在这里,我还指定了格式说明符 .2f ,并使用冒号将其与字段名隔开。它意味着要使用包含2位小数的浮点数格式。如果没有指定 .2f ,结果将如下:
>>> "{name} is approximately {value}.".format(value=pi, name="π")
'π is approximately 3.141592653589793.'
最后,在Python 3.6中,如果变量与替换字段同名,还可使用一种简写。在这种情况下,可使用 f 字符串——在字符串前面加上 f 。
>>> from math import e
>>> f"Euler's constant is roughly {e}."
"Euler's constant is roughly 2.718281828459045."
在这里,创建最终的字符串时,将把替换字段 e 替换为变量 e 的值。这与下面这个更明确一些的表达式等价:
>>> "Euler's constant is roughly {e}.".format(e=e)
"Euler's constant is roughly 2.718281828459045."
3宽度、精度和千位分隔符
宽度是使用整数指定的,如下所示:
>>> "{num:10}".format(num=3)
' 3'
>>> "{name:10}".format(name="Bob")
'Bob '
如你所见,数和字符串的对齐方式不同。
精度也是使用整数指定的,但需要在它前面加上一个表示小数点的句点。
>>> "Pi day is {pi:.2f}".format(pi=pi)
'Pi day is 3.14
同时指定宽度和精度
>>> "{pi:10.2f}".format(pi=pi)
' 3.14'
最后,可使用逗号来指出你要添加千位分隔符。
>>> 'One googol is {:,}'.format(10**100)
'One googol is 10,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,00
0,000,000,000,000,000,000,000,000,000,000,000,000,000,000'
4符号、对齐和用 0 填充
在指定宽度和精度的数前面,可添加一个标志。这个标志可以是零、加号、减号或空格,其中零表示使用
0来填充数字。
>>> '{:010.2f}'.format(pi)
'0000003.14
要指定左对齐、右对齐和居中,可分别使用 < 、 > 和 ^ 。
>>> print('{0:<10.2f}\n{0:^10.2f}\n{0:>10.2f}'.format(pi))
3.14
3.14
3.14
可以使用填充字符来扩充对齐说明符,这样将使用指定的字符而不是默认的空格来填充。
>>> "{:$^15}".format(" WIN BIG ")
'$$$ WIN BIG $$$'
字符串方法
center
方法 center 通过在两边添加填充字符(默认为空格)让字符串居中。
>>> "The Middle by Jimmy Eat World".center(39)
' The Middle by Jimmy Eat World '
>>> "The Middle by Jimmy Eat World".center(39, "*")
'*****The Middle by Jimmy Eat World*****'
find
方法 find 在字符串中查找子串。如果找到,就返回子串的第一个字符的索引,否则返回 -1 。
>>> 'With a moo-moo here, and a moo-moo there'.find('moo')
7
>>> title = "Monty Python's Flying Circus"
>>> title.find('Monty')
0
>>> title.find('Python')
>>> title.find('Flying')
15
>>> title.find('Zirquss')
-1
你还可指定搜索的起点和终点(它们都是可选的)。
>>> subject = '$$$ Get rich now!!! $$$'
>>> subject.find('$$$')
0
>>> subject.find('$$$', 1) # 只指定了起点
20
>>> subject.find('!!!')
16
>>> subject.find('!!!', 0, 16) # 同时指定了起点和终点
-1
请注意,起点和终点值(第二个和第三个参数)指定的搜索范围包含起点,但不包含终点。
join
join 是一个非常重要的字符串方法,其作用与 split 相反,用于合并序列的元素。
>>> seq = [1, 2, 3, 4, 5]
>>> sep = '+'
>>> sep.join(seq) # 尝试合并一个数字列表
Traceback (most recent call last):
File "<stdin>", line 1, in ?
TypeError: sequence item 0: expected string, int found
>>> seq = ['1', '2', '3', '4', '5']
>>> sep.join(seq) # 合并一个字符串列表
'1+2+3+4+5'
>>> dirs = '', 'usr', 'bin', 'env'
>>> '/'.join(dirs)
'/usr/bin/env'
>>> print('C:' + '\\'.join(dirs))
C:\usr\bin\env
lower
方法 lower 返回字符串的小写版本。
>>> 'Trondheim Hammer Dance'.lower()
'trondheim hammer dance'
在你编写代码时,如果不想区分字符串的大小写(即忽略大小写的差别),这将很有用。例
如,假设你要检查列表中是否包含指定的用户名。如果列表包含字符串 'gumby' ,而指定的用户
名为 'Gumby' ,你将找不到它。
>>> if 'Gumby' in ['gumby', 'smith', 'jones']: print('Found it!')
...
>>>
当然,如果列表包含 'Gumby' ,而指定的用户名为 'gumby' 或 'GUMBY' ,结果同样找不到。对于
这种问题,一种解决方案是在存储和搜索时,将所有的用户名都转换为小写。这样做的代码类似
于下面这样:
>>> name = 'Gumby'
>>> names = ['gumby', 'smith', 'jones']
>>> if name.lower() in names: print('Found it!')
...
Found it!
>>>
replace
方法 replace 将指定子串都替换为另一个字符串,并返回替换后的结果。
>>> 'This is a test'.replace('is', 'eez')
'Theez eez a test'
如果你使用过字处理程序的“查找并替换”功能,一定知道这个方法很有用。
split
split 是一个非常重要的字符串方法,其作用与 join 相反,用于将字符串拆分为序列。
>>> '1+2+3+4+5'.split('+')
['1', '2', '3', '4', '5']
>>> '/usr/bin/env'.split('/')
['', 'usr', 'bin', 'env']
>>> 'Using the default'.split()
['Using', 'the', 'default']
注意,如果没有指定分隔符,将默认在单个或多个连续的空白字符(空格、制表符、换行符
等)处进行拆分
strip
方法 strip 将字符串开头和末尾的空白(但不包括中间的空白)删除,并返回删除后的结果。
>>> ' internal whitespace is kept '.strip()
'internal whitespace is kept'
与 lower 一样,需要将输入与存储的值进行比较时, strip 很有用。回到前面介绍 lower 时使用
的用户名示例,并假定用户输入用户名时不小心在末尾加上了一个空格。
>>> names = ['gumby', 'smith', 'jones']
>>> name = 'gumby '
>>> if name in names: print('Found it!')
...
>>> if name.strip() in names: print('Found it!')
...
Found it!
>>>
你还可在一个字符串参数中指定要删除哪些字符。
>>> '*** SPAM * for * everyone!!! ***'.strip(' *!')
'SPAM * for * everyone'
translate
方法 translate 与 replace 一样替换字符串的特定部分,但不同的是它只能进行单字符替换。
这个方法的优势在于能够同时替换多个字符,因此效率比 replace 高。
这个方法的用途很多(如替换换行符或其他随平台而异的特殊字符),但这里只介绍一个比
较简单(也有点傻)的示例。假设你要将一段英语文本转换为带有德国口音的版本,为此必须将
字符c和s分别替换为k和z。
然而,使用 translate 前必须创建一个转换表。这个转换表指出了不同Unicode码点之间的转
换关系。要创建转换表,可对字符串类型 str 调用方法 maketrans ,这个方法接受两个参数:两个
长度相同的字符串,它们指定要将第一个字符串中的每个字符都替换为第二个字符串中的相应字
符
就这个简单的示例而言,代码类似于下面这样:
>>> table = str.maketrans('cs', 'kz')
如果愿意,可查看转换表的内容,但你看到的只是Unicode码点之间的映射。
>>> table
{115: 122, 99: 107}
str.maketrans(x[,y[,z]]) 一个静态方法,它创建一个供 translate 使用的转换表。如果只指定了参
数 x ,它必须是从字符或序数到Unicode序数或 None (用于删除)的映射;
也可使用两个表示源字符和目标字符的字符串调用它;还可提供第三个
参数,它指定要删除的字符
创建转换表后,就可将其用作方法 translate 的参数。
>>> 'this is an incredible test'.translate(table)
'thiz iz an inkredible tezt'
调用方法 maketrans 时,还可提供可选的第三个参数,指定要将哪些字母删除。例如,要模
仿语速极快的德国口音,可将所有的空格都删除。
>>> table = str.maketrans('cs', 'kz', ' ')
>>> 'this is an incredible test'.translate(table)
'thizizaninkredibletezt'
判断字符串是否满足特定的条件
很多字符串方法都以 is 打头,如 isspace 、 isdigit 和 isupper ,它们判断字符串是否具有特定
的性质(如包含的字符全为空白、数字或大写)。如果字符串具备特定的性质,这些方法就返回
True ,否则返回 False 。
string.isalnum() 检查字符串中的字符是否都是字母或数
string.isalpha() 检查字符串中的字符是否都是字母
string.isdecimal() 检查字符串中的字符是否都是十进制数
string.isdigit() 检查字符串中的字符是否都是数字
string.isidentifier() 检查字符串是否可用作Python标识符
string.islower() 检查字符串中的所有字母都是小写的
string.isnumeric() 检查字符串中的所有字符是否都是数字字符
string.isprintable() 检查字符串中的字符是否都是可打印的
string.isspace() 检查字符串中的字符是否都是空白字符
string.istitle() 检查字符串中位于非字母后面的字母都是大写的,且其他所有字母都是
小写的
string.isupper() 检查字符串中的字母是否都是大写的