详解 Python 中的字符串

目录

4.1 创建字符串

4.2 字符串的不可变性   

4.3 字符串操作

4.4 字符串分片

4.5 in 和 not in 操作符  

4.6 String 对象的方法 

4.7 比较字符串  

 4.8 遍历字符串  

4.9 字符串内容检验 

4.10 在字符串内查找和替换

4.11 设置字符串的格式:精简版

4.12 替换字段名

4.13 宽度、精度和千位分隔符

4.14 符号、对齐和用 0 填充

4.15 join方法

4.16 split方法


Python中的字符串(Strings)是⽤单引号或双引号标记的⼀系列连续字符(characters),换句话说,字符串是由单个字符组成的序列(list)。即便只有⼀个字符,也是字符串, Python 中没有字符数据类型。记住单引号括起的字符串和双引号括起的字符串是⼀样的——它们不存在任何区别。

4.1 创建字符串

>>> name = "tom"
>>> mychar = 'a

我们还可以使⽤下⾯的语法创建字符串:
 

>>> name1 = str() # 创 建 一 个 空 字 符 串
>>> name2 = str("newstring") # 创 建 一 个 内 容 为 newstring的 字 符 串

4.2 字符串的不可变性   

在 Python 中,每⼀个对象都可以分为不可变性或者可变性。在核⼼类型中,数字、字符串和元组是不可变的。
字符串在 Python 中⼀旦创建就不能就地改变,例如不能通过对其某⼀位置进⾏赋值⽽改变字符串。下⾯的语句就会出现如下语法错误:“TypeError: ’str’ object doesnot support item assignment”

s = 'string'
print(len(s))
print(s[0]) # 输 出 序 列 的 第 一 个 元 素
s[0] = 'another s' # 试 图 修 改 字 符 串 的 内 容
print(s)

关于不可变性,我们再看⼀个例⼦:
 

>>> str1 = "welcome"
>>> str2 = "welcome"

上述代码中, str1 和 str2 都指向存储在内存中某个地⽅的字符串对象”welcome”。
我们可以通过 id() 函数来测试 str1 和 str2 是否真的指向同⼀个对象。

id() 函数
id() 函数可以得到对象在内存中的存储地址。 

 

>>> str1 = 'welcome'
>>> str2 = 'welcome'
>>> id(str1)
35462112
>>> id(str2)
35462112

我们可以看到, str1 和 str2 都指向同⼀个内存地址,因此,他们都指向同样的对象“welcome”。下⾯让我们再编辑 str1 的内容看看:

>>> str1 += " yangjh"
>>> str1
'welcome yangjh'
>>> id(str1)
35487600

我们可以看到,现在变量 str1 指向了⼀个完全不同的内容地址,这也说明,我们对 str1 的内容操作实际上是新建了⼀个新的字符串对象。

4.3 字符串操作
 

 字符串索引开始于 0,因此,我们可以这样获取字符串的第⼀个字符:

>>> name = 'yangjh'
>>> name[0]
'y'

在对字符串操作时,还可以从后往前取元素:
 

>>> name[-1]
'h'

运算符“+”⽤来连接字符串,运算符“*”⽤来重复字符串,例如:

>>> s = "tom and " + "jerry"
>>> print(s)
tom and jerry
>>> s = "love " * 3
>>> print(s)
love love love

4.4 字符串分片

 我们还可以通过“[]”操作符来获取原始字符串的⼦集,这就是所谓的分⽚。语法规则如下:

s[start:end]

切分操作将返回字符串的部分内容,起始于 index,结束于 end-1。例如:

>>> s = 'yangjh'
>>> s[1:3]
'an'
>>> s = "Welcome"
>>> s[ : 6]
'Welcom'
>>> s[4 : ]
'ome'
>>> s[1 : -1]
'elcom'

注意:开始索引和结束索引都是可选的,如果忽略,开始索引就是 0,⽽结束索引就是字符串的最后⼀个字符对应的索引值。

4.5 in 和 not in 操作符  

我们可以使⽤ in 和 not in 操作符检查⼀个字符串是否存在于另⼀个字符串, in 和not in 就是所谓的成员资格操作符(membership operator)。

>>> s1 = "Welcome"
>>> "come" in s1
True
>>> "come" not in s1
False

4.6 String 对象的方法 

下表3-3是三个常⽤的字符串⽅法:

>>> len("hello")
5
>>> max("abc")
'c
>>> min("abc")
'a

4.7 比较字符串  

 我们可以使⽤ ( > , < , <= , <= , == , != ) ⽐较两个字符串。 Python ⽐较字符串是按照编纂字典的⽅式进⾏的,也就是使⽤ASCII 编码值‹⽐较字符。
假设 str1 的值为”Jane”, str2 的值为”Jake”,⾸先⽐较这两个字符串的第⼀个字符“J”,如果相等,就继续⽐较第⼆个字符(a 和 a),因为相同,所以继续⽐较第三个字符(n 和 k),因为 n 的 ASCII 编码值⼤于 k,因此 str1 ⼤于 str2。更多例⼦参见下⾯的代码:

>>> "tim" == "tie"
False
>>> "free" != "freedom"
True
>>> "arrow" > "aron"
True
>>> "green" >= "glow"
True
>>> "green" < "glow"
False
>>> "green" <= "glow"
False
>>> "ab" <= "abc"
True

 4.8 遍历字符串  

字符串是序列,因此也可以使⽤循环遍历成员。
 

>>> s = "yangjh"
>>> for i in s:
... print(i, end="")
...
yangjh

改变 print() 函数的输出格式
print()函数在默认状态下,会另起⼀⾏打印字符串,我们可以使⽤第⼆个参数修改结束标记。如 print(”my string”,end=””) 就表⽰打印字符串,但不另起⼀⾏。

4.9 字符串内容检验 

Python 字符串类内置了丰富的⽅法,使⽤这些⽅法(见表3-4),我们可以检查字符串内容的类型。


这些判断⽅法的实例如下:

>>> s = "welcome to python"
>>> s.isalnum()
False
>>> "Welcome".isalpha()
True
>>> "2012".isdigit()
True
>>> "first Number".isidentifier()
False
>>> s.islower()
True
>>> "WELCOME".isupper()
True
>>> " \t".isspace()
True

4.10 在字符串内查找和替换

除了⼀般的序列操作,字符串还有独有的⼀些⽅法。如查找和替换:

print(s.find('in'))
print(s.replace('g', 'gs')) # 虽 然 显 示 字 符 串 已 被 替 换 , 但 实 际 上 是 一 个新 的 字 符 串 。

相关的⽅法见下表3-5:

⽰例如下:

>>> s = "welcome to python"
>>> s.endswith("thon")
True
>>> s.startswith("good")
False
>>> s.find("come")
3
>>> s.find("become")
-1
>>> s.rfind("o")
15
>>> s.count("o")
3

4.11 设置字符串的格式:精简版

将值转换为字符串并设置其格式是一个重要的操作,需要考虑众多不同的需求,因此随着时间的流逝, Python提供了多种字符串格式设置方法。以前,主要的解决方案是使用字符串格式设置运算符——百分号。这个运算符的行为类似于C语言中的经典函数printf:在%左边指定一个字符串(格式字符串),并在右边指定要设置其格式的值。指定要设置其格式的值时,可使用单个值(如字符串或数字),可使用元组(如果要设置多个值的格式),还可使用字典,其中最常见的是元组。

format =  "Hello, %s. %s enough for ya?"
values = ('world','Hot')
print(format % values)

上述格式字符串中的%s称为转换说明符,指出了要将值插入什么地方。 s意味着将值视为字符串进行格式设置。如果指定的值不是字符串,将使用str将其转换为字符串。其他说明符将导致其他形式的转换。例如, %.3f将值的格式设置为包含3位小数的浮点数。这种格式设置方法现在依然管用,且依然活跃在众多代码中,因此你很可能遇到。

编写新代码时,应选择使用字符串方法format,它融合并强化了早期方法的优点。使用这种方法时,每个替换字段都用花括号括起,其中可能包含名称,还可能包含有关如何对相应的值进行转换和格式设置的信息。

在最简单的情况下,替换字段没有名称或将索引用作名称。

>>> "{}, {} and {}".format("first", "second", "third")
'first, second and third'
>>> "{0}, {1} and {2}".format("first", "second", "third")
'first, second and third'

然而,索引无需像上面这样按顺序排列。

>>> "{3} {0} {2} {1} {3} {0}".format("be", "not", "or", "to")
'to be or not to be'

命名字段的工作原理与你预期的完全相同。

>>> from math import pi
>>> "{name} is approximately {value:.2f}.".format(value=pi, name="π")
'π is approximately 3.14.'

4.12 替换字段名

在最简单的情况下,只需向format提供要设置其格式的未命名参数,并在格式字符串中使用未命名字段。此时,将按顺序将字段和参数配对。你还可给参数指定名称,这种参数将被用于相应的替换字段中。你可混合使用这两种方法。

>>> "{foo} {} {bar} {}".format(1, 2, bar=4, foo=3)
'3 1 4 2'

还可通过索引来指定要在哪个字段中使用相应的未命名参数,这样可不按顺序使用未命名参数。

>>> "{foo} {1} {bar} {0}".format(1, 2, bar=4, foo=3)
'3 2 4 1'

然而,不能同时使用手工编号和自动编号,因为这样很快会变得混乱不堪。

4.13 宽度、精度和千位分隔符

设置浮点数(或其他更具体的小数类型)的格式时,默认在小数点后面显示6位小数,并根据需要设置字段的宽度,而不进行任何形式的填充。当然,这种默认设置可能不是你想要的,在这种情况下,可根据需要在格式说明中指定宽度和精度。

宽度是使用整数指定的,如下所示:

>>> "{num:10}".format(num=3)
' 3'
>>> "{name:10}".format(name="Bob")
'Bob '

如你所见,数和字符串的对齐方式不同。
精度也是使用整数指定的,但需要在它前面加上一个表示小数点的句点。

>>> "Pi day is {pi:.2f}".format(pi=pi)
'Pi day is 3.14'

实际上,对于其他类型也可指定精度,但是这样做的情形不太常见。
 

>>> "{:.5}".format("Guido van Rossum")
'Guido'

4.14 符号、对齐和用 0 填充

有很多用于设置数字格式的机制,比如便于打印整齐的表格。在大多数情况下,只需指定宽度和精度,但包含负数后,原本漂亮的输出可能不再漂亮。另外,正如你已看到的,字符串和数的默认对齐方式不同。在一栏中同时包含字符串和数时,你可能想修改默认对齐方式。在指定宽度和精度的数前面,可添加一个标志。这个标志可以是零、加号、减号或空格,其中零表示使用0来填充数字。

>>> '{:010.2f}'.format(pi)
'0000003.14'

要指定左对齐、右对齐和居中,可分别使用<、 >和^。
 

>>> print('{0:<10.2f}\n{0:^10.2f}\n{0:>10.2f}'.format(pi))
3.14
    3.14
        3.14

4.15 join方法

join是一个非常重要的字符串方法,其作用与split相反,用于合并序列的元素。

>>> seq = [1, 2, 3, 4, 5]
>>> sep = '+'
>>> sep.join(seq) # 尝试合并一个数字列表
Traceback (most recent call last):
File "<stdin>", line 1, in ?
TypeError: sequence item 0: expected string, int found
>>> seq = ['1', '2', '3', '4', '5']
>>> sep.join(seq) # 合并一个字符串列表
'1+2+3+4+5'
>>> dirs = '', 'usr', 'bin', 'env'
>>> '/'.join(dirs)
'/usr/bin/env'
>>> print('C:' + '\\'.join(dirs))
C:\usr\bin\env

如你所见,所合并序列的元素必须都是字符串。注意到在最后两个示例中,我使用了一系列目录,并按UNIX和DOS/Windows的约定设置其格式:通过使用不同的分隔符(并在DOS版本中添加了盘符)。
 

4.16 split方法

split是一个非常重要的字符串方法,其作用与join相反,用于将字符串拆分为序列。
 

>>> '1+2+3+4+5'.split('+')
['1', '2', '3', '4', '5']
>>> '/usr/bin/env'.split('/')
['', 'usr', 'bin', 'env']
>>> 'Using the default'.split()
['Using', 'the', 'default']

注意,如果没有指定分隔符,将默认在单个或多个连续的空白字符(空格、制表符、换行符等)处进行拆分。
 

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值