字符串(string)篇（一）

熊猫Devin

已于 2024-03-20 21:30:03 修改

阅读量1.1k

点赞数 21

分类专栏： python笔记文章标签： python

于 2024-03-19 21:38:04 首次发布

本文链接：https://blog.csdn.net/d710055071/article/details/136856313

版权

python笔记专栏收录该内容

92 篇文章 7 订阅

订阅专栏

本文详细介绍了Python中字符串处理的几个重要函数，包括capitalize()、casefold()、center()、count()、decode()、encode()、endswith()、expandtabs()和find()，展示了它们的用途、语法和实例应用。

摘要由CSDN通过智能技术生成

1.1 capitalize()函数

在Python中，capitalize() 是一个字符串（string）方法，用于将字符串的第一个字符转换为大写，而其余字符转换为小写。如果字符串的第一个字符已经是大写或者字符串为空，则该方法不会有任何效果。

以下是 capitalize() 方法的简单示例：

# 定义一个字符串
s = "hello world"

# 使用capitalize()方法
capitalized_s = s.capitalize()

# 输出结果
print(capitalized_s)  # 输出 "Hello world"

在这个例子中，capitalize() 方法将字符串 s 的第一个字符 ‘h’ 转换为大写，并保留了其余字符 ‘ello world’ 的小写形式。

如果你想要将一个字符串中的每个单词的首字母都转换为大写（即“标题化”），你应该使用 title() 方法，而不是 capitalize()。

# 定义一个字符串
s = "hello world"

# 使用title()方法
titled_s = s.title()

# 输出结果
print(titled_s)  # 输出 "Hello World"

在这个例子中，title() 方法将字符串 s 中的每个单词的首字母都转换为大写，其余字母则转换为小写。

1.2 casefold()函数

casefold() 是 Python 中的一个字符串方法，用于将字符串转换为“折叠”形式，这通常意味着将所有字符转换为小写，并可能进一步规范化某些字符以使其不区分大小写。这个方法对于执行不区分大小写的字符串比较特别有用。

casefold() 和 lower() 方法之间的主要区别在于，casefold() 提供了更全面的不区分大小写的转换。例如，德语中的 “ß” 字符在 lower() 方法下仍然保持为 “ß”，但在 casefold() 方法下会转换为 “ss”。

下面是一个简单的例子：

s1 = "Hello, World!"
s2 = "hello, world!"

# 使用 lower() 方法
s1_lower = s1.lower()
s2_lower = s2.lower()
print(s1_lower == s2_lower)  # 输出: True

# 使用 casefold() 方法
s1_casefold = s1.casefold()
s2_casefold = s2.casefold()
print(s1_casefold == s2_casefold)  # 输出: True

# 对于德语中的 "ß" 字符
s3 = "Straße"
s4 = "strasse"

# 使用 lower() 方法
s3_lower = s3.lower()
s4_lower = s4.lower()
print(s3_lower == s4_lower)  # 输出: False，因为 "ß" 没有转换为 "ss"

# 使用 casefold() 方法
s3_casefold = s3.casefold()
s4_casefold = s4.casefold()
print(s3_casefold == s4_casefold)  # 输出: True，因为 "ß" 被转换为 "ss"

在这个例子中，lower() 方法将所有字符转换为小写，但德语中的 “ß” 字符保持原样。而 casefold() 方法则进一步将 “ß” 转换为 “ss”，使得两个字符串在不区分大小写的情况下相等。

总的来说，casefold() 提供了一个更全面的方法来处理不同语言中的字符，以便进行不区分大小写的比较。

1.3 center()函数

在Python的字符串（string）模块中，并没有一个名为center()的内置函数。但在Python的字符串（str）对象自身中，确实有一个center()方法。这个方法用于返回一个原字符串居中，并使用指定的字符（默认为空格）填充至指定长度的新字符串。

center()方法的语法如下：

str.center(width[, fillchar])

width：表示返回的新字符串的总长度。如果原字符串的长度大于width，则原字符串将被截断至width长度。
fillchar：可选参数，用于填充新字符串中除原字符串外的部分，默认为空格字符。

示例：

s = "hello"

# 居中对齐，总长度为10，使用空格填充
centered_s = s.center(10)
print(centered_s)  # 输出 "   hello   "

# 居中对齐，总长度为10，使用"-"填充
centered_s_dash = s.center(10, "-")
print(centered_s_dash)  # 输出 "---hello---"

# 如果原字符串长度大于指定宽度，则会被截断
long_s = "hello world"
truncated_s = long_s.center(10)
print(truncated_s)  # 输出 "hello worl"

在这个例子中，s.center(10)将字符串"hello"居中，并在其两侧填充空格，使得整个字符串的长度为10。类似地，s.center(10, “-”)会在两侧填充字符"-"。如果字符串长度大于指定的宽度，那么字符串将被截断以适应指定的宽度。

1.4 count()函数

在Python中，count()是一个字符串方法，用于计算子字符串在母字符串中出现的次数。这个方法返回子字符串在母字符串中非重叠出现的次数。

以下是count()方法的基本语法：

str.count(sub[, start[, end]])

sub：要搜索的子字符串。
start：可选参数，指定搜索的开始位置。
end：可选参数，指定搜索的结束位置。

如果提供了start和end参数，那么count()方法将只计算在这个范围内子字符串出现的次数。

下面是一些使用count()方法的例子：

# 简单的计数
s = "hello world, hello Python"
count = s.count("hello")
print(count)  # 输出: 2

# 使用起始和结束位置
count_range = s.count("hello", 7, 20)  # 从索引7开始，到索引20结束（不包含20）
print(count_range)  # 输出: 1

# 子字符串不在母字符串中
count_none = s.count("goodbye")
print(count_none)  # 输出: 0

在第一个例子中，子字符串"hello"在母字符串中出现了两次。

在第二个例子中，我们计算了从索引7到索引20（不包含20）之间子字符串"hello"出现的次数，结果是1，因为只有一个"hello"在这个范围内。

在第三个例子中，子字符串"goodbye"并不在母字符串中，所以返回的次数是0。

count()方法只计算非重叠的出现次数，如果子字符串在母字符串中有重叠部分，它也会被计算为多次出现。

# 重叠计数
s = "abab"
count_overlap = s.count("aba")
print(count_overlap)  # 输出: 1

在这个例子中，尽管"aba"和"bab"有重叠的字符，但count()方法只计算了一次非重叠的出现。

1.5 decode()函数

在Python中，decode()是一个常用于字节串（bytes）对象的方法，用于将字节串解码为字符串。这个方法通常与编码方法encode()相对应，后者用于将字符串编码为字节串。

当你处理从文件、网络或其他来源获取的原始字节数据时，经常需要使用decode()方法将其转换为人类可读的字符串形式。

decode()方法的基本语法如下：

bytes_obj.decode(encoding='utf-8', errors='strict')

encoding：指定解码时使用的字符编码。如果不指定，则默认为utf-8。
errors：指定处理解码错误的方式。默认为strict，表示遇到错误时抛出异常；也可以设置为ignore以忽略错误，或者设置为replace以用问号?替换错误的部分。

下面是一个使用decode()方法的例子：

# 编码一个字符串为字节串
encoded_bytes = "你好，世界".encode('utf-8')
print(encoded_bytes)  # 输出: b'\xe4\xbd\xa0\xe5\xa5\xbd\xef\xbc\x8c\xe4\xb8\x96\xe7\x95\x8c'

# 解码字节串为字符串
decoded_str = encoded_bytes.decode('utf-8')
print(decoded_str)  # 输出: 你好，世界

# 如果尝试用错误的编码解码，将会抛出异常
try:
    wrong_decoded_str = encoded_bytes.decode('ascii')
except UnicodeDecodeError as e:
    print("解码错误:", e)

# 使用errors参数来处理解码错误
safer_decoded_str = encoded_bytes.decode('ascii', errors='replace')
print(safer_decoded_str)  # 输出: ???，???

在这个例子中，我们首先使用encode()方法将字符串"你好，世界"编码为UTF-8编码的字节串。然后，我们使用decode()方法将这个字节串解码回原始的字符串。如果尝试使用错误的编码（如ASCII）来解码包含非ASCII字符的字节串，将会抛出UnicodeDecodeError异常。通过设置errors参数为replace，我们可以避免异常，并用问号替换无法解码的部分。

1.6 encode()函数

在Python中，encode()是一个字符串（str）对象的方法，用于将字符串编码为字节串（bytes）。当你需要将字符串发送到网络、保存到文件或进行其他需要字节数据的操作时，通常会使用encode()方法。

encode()方法的基本语法如下：

str.encode(encoding='utf-8', errors='strict')

encoding：指定用于编码的字符集。如果不指定，则默认为utf-8。常用的字符集编码还有ascii、latin1、iso-8859-1等。
errors：指定如何处理编码错误。默认为strict，表示遇到编码错误时抛出异常；也可以设置为ignore以忽略错误；或者设置为replace以用问号?替换错误的部分。

下面是一个使用encode()方法的例子：

# 编码一个字符串为UTF-8字节串
s = "你好，世界"
encoded_bytes = s.encode('utf-8')
print(encoded_bytes)  # 输出: b'\xe4\xbd\xa0\xe5\xa5\xbd\xef\xbc\x8c\xe4\xb8\x96\xe7\x95\x8c'

# 尝试用错误的编码
try:
    encoded_bytes = s.encode('ascii')
except UnicodeEncodeError as e:
    print("编码错误:", e)

# 使用errors参数来处理编码错误
safe_encoded_bytes = s.encode('ascii', errors='replace')
print(safe_encoded_bytes)  # 输出: b'??，??'

在这个例子中，我们首先使用encode()方法将包含非ASCII字符的字符串"你好，世界"编码为UTF-8字节串。然后，我们尝试使用ASCII编码来编码这个字符串，由于ASCII不支持中文字符，所以抛出了UnicodeEncodeError异常。最后，我们通过设置errors参数为replace来避免异常，并用问号?替换了无法编码的字符。

encode()方法的返回值是一个字节串（bytes）对象，它包含编码后的字节数据。这个字节串对象可以用于网络传输、文件写入或其他需要二进制数据的场景。

1.7 endswith()函数

在Python中，endswith()是一个字符串方法，用于检查字符串是否以指定的后缀结束。如果字符串以指定的后缀结束，则返回True，否则返回False。

以下是endswith()方法的基本语法：

str.endswith(suffix[, start[, end]])

suffix：要检查的后缀字符串。
start：可选参数，指定检查的起始位置。
end：可选参数，指定检查的结束位置。

如果提供了start和end参数，那么endswith()方法将只在这个范围内检查后缀。

下面是一些使用endswith()方法的例子：

# 简单的检查
s = "Hello, World!"
print(s.endswith("World!"))  # 输出: True
print(s.endswith("Python"))  # 输出: False

# 使用起始和结束位置
print(s.endswith("o", 0, 5))  # 在索引0到4的范围内检查"o"
# 输出: True，因为在"Hello"中确实以"o"结尾

# 不考虑大小写检查
print(s.endswith("world!", 7))  # 输出: False，因为默认是区分大小写的
print(s.lower().endswith("world!"))  # 输出: True，转换为小写后检查

# 使用元组检查多个后缀
suffixes = (".txt", ".doc", ".pdf")
print(s.endswith(suffixes))  # 输出: False，因为s不以这些后缀中的任何一个结尾

# 检查多个后缀中的一个
print(s.endswith(".txt", ".doc", ".pdf"))  # 输出: False，因为语法不正确
# 正确的做法是使用元组
print(s.endswith((".txt", ".doc", ".pdf")))  # 输出: False

在第一个例子中，字符串s以"World!"结束，所以endswith(“World!”)返回True。

在第二个例子中，我们指定了检查的范围，只在索引0到4的范围内查找后缀"o"，因为在这个范围内字符串确实以"o"结束，所以返回True。

在第三个例子中，我们展示了如何不区分大小写地检查后缀。默认情况下，endswith()是区分大小写的，但可以通过将字符串转换为全小写（或全大写）来执行不区分大小写的检查。

最后一个例子展示了如何使用元组来检查多个后缀。注意，你不能直接将多个参数传递给endswith()，而是需要将这些后缀放在一个元组中。然而，检查多个后缀时，只需传递一个元组参数即可。

1.8 expandtabs()函数

在Python中，expandtabs()是字符串（str）对象的一个方法，用于将字符串中的制表符（tab）转换为空格。默认情况下，它会把每个制表符替换为8个空格，但你也可以通过指定tabsize参数来更改这个数量。

expandtabs()方法的基本语法如下：

str.expandtabs(tabsize=8)

tabsize：指定制表符应被扩展为的空格数。如果不提供此参数，则默认值为8。

下面是一个使用expandtabs()方法的例子：

# 定义一个包含制表符的字符串
s = "Hello\tWorld"

# 使用默认的8个空格扩展制表符
expanded_s = s.expandtabs()
print(expanded_s)  # 输出: Hello       World

# 使用4个空格扩展制表符
expanded_s_4 = s.expandtabs(4)
print(expanded_s_4)  # 输出: Hello    World

在这个例子中，字符串s包含一个制表符，它默认被替换为8个空格。当我们调用expandtabs(4)时，制表符被替换为4个空格。

expandtabs()方法通常用于文本处理，特别是在你需要确保文本在不同的环境中具有一致的格式时，比如在写入文件或在网络协议中使用。通过使用expandtabs()，你可以确保文本中不会由于制表符和空格的混合使用而导致布局混乱。

1.9 find()函数

在Python中，find()是一个字符串（str）对象的方法，用于查找子字符串在字符串中首次出现的位置。如果找到子字符串，则返回其起始索引（从0开始计数）；如果没有找到，则返回-1。

find()方法的基本语法如下：

str.find(sub[, start[, end]])

sub：要查找的子字符串。
start：可选参数，指定查找的起始位置。
end：可选参数，指定查找的结束位置。

下面是一些使用find()方法的例子：

# 查找子字符串的起始位置
s = "Hello, World!"
index = s.find("World")
print(index)  # 输出: 7，因为"World"在s中从索引7开始

# 如果子字符串不存在，则返回-1
index = s.find("Python")
print(index)  # 输出: -1，因为"Python"不在s中

# 使用起始和结束位置来限制搜索范围
index = s.find("o", 0, 5)  # 在索引0到4的范围内查找"o"
print(index)  # 输出: 4，因为在"Hello"中"o"的索引是4

# find()方法区分大小写
index = s.find("world")  # "world"是小写，而s中的是"World"
print(index)  # 输出: -1，因为大小写不匹配

# 使用负索引从字符串末尾开始搜索
index = s.find("o", -10)  # 从距离末尾10个字符的位置开始搜索"o"
print(index)  # 输出: 7，因为在"World"中"o"的索引是7

在第一个例子中，我们查找子字符串"World"在字符串s中的位置，并打印其起始索引。在第二个例子中，我们查找一个不存在的子字符串，并验证find()返回-1。在第三个例子中，我们限制了搜索范围。在第四个例子中，我们展示了find()方法是区分大小写的。在最后一个例子中，我们使用了负索引来从字符串的末尾开始搜索。

请注意，find()方法只能查找子字符串首次出现的位置。如果你想找到所有匹配的子字符串的位置，你可能需要使用其他方法，如正则表达式或循环调用find()并更新搜索的起始位置