Pandas 模块-操纵数据(12)-处理字符串数据

最新推荐文章于 2024-06-23 08:38:58 发布

江南野栀子

最新推荐文章于 2024-06-23 08:38:58 发布

阅读量1.1k

点赞数 16

分类专栏： # Python 数据分析文章标签： pandas

本文链接：https://blog.csdn.net/u010701274/article/details/139092294

版权

Python 数据分析专栏收录该内容

22 篇文章 29 订阅

订阅专栏

1. .str 模块

1.1 数据准备

1.2 .str 函数详解

1.2.1 .str capitalize() 首字母大写

1.2.2 .str casefold() 返回字符串的副本

1.2.3 .str cat() 连接输出

1.2.4 .str center(width[,fillchar]) 字符串居中

1.2.5 .str contains() 含有特定字符

1.2.6 .str count() 计数

1.2.7 .str endswith(suffix[, start[, end]]) 是否以指定后缀结尾

1.2.8 .str extract(pat[,flags=0,expand=True]) 提取特定字符

1.2.9 .str swapcase() 字符串大小写翻转

1.2.10 .str find(str [beg=0, end=len(string)]) / findall 检测是否包含子字符串

1.2.11 .str join(str]) 连接生成新字符串

1.2.12 .str replace(str1,str2]) str2 替换 str1

1.2.13 .str split(str[,num]) 用 str 分割字符串

1.2.14 .str translate(table) 字符转换

我们实际处理数据时候，往往要对原始数据进行很多精细化处理，下面减少一些常用的处理字符串的方式。

1. .str 模块

Pandas 的主要数据结构是 Series （一维数据）与 DataFrame（二维数据）。Series 结构中有个 str 模块，可以对字符串数据进行精雕细琢。

1.1 数据准备

import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({'data': ['a123bm', '456cj', '789du', 'e11fo']})
print(df)
type(df['data'])

1.2 .str 函数详解

1.2.1 .str capitalize() 首字母大写

df['data'].str.capitalize()

1.2.2 .str casefold() 返回字符串的副本

casefold 返回字符串的副本，所有的大写字符都被转换为小写字符，并且使用Unicode规范化，以便比较字符串时能够忽略大小写和语言差异。与lower()方法不同，casefold()方法在转换时考虑了更多的字符集和语言差异。

import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({'data': ['a123bM', '456Cj', '789du', 'e11fo']})
print(df)
print("*"*20)
df['data'].str.casefold()

1.2.3 .str cat() 连接输出

cat 命令原来是一个Linux shell命令。它是 concatenate 的简写。它被放在最常用的shell命令中。它可以用于各种目的，如在终端上显示一个文件的内容，将一个给定文件的内容复制到另一个给定文件，追加和覆盖内容都可以用 cat 命令完成。在 Python 中它用来连接所有的数据一起输出

import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({'data': ['a123bM', '456Cj', '789du', 'e11fo']})
print(df)
print("*"*20)
df['data'].str.cat()

1.2.4 .str center(width[,fillchar]) 字符串居中

center()是一个非常实用的方法。该方法主要用于将字符串居中，并在两侧填充指定字符（默认为空格）以达到指定的总长度。对于文本格式化、界面设计以及数据展示等场景，center()方法都能提供高效的解决方案。

width：指定字符串居中后的总长度，如果该长度小于原字符串长度，则原样返回字符串。
fillchar：可选参数，用于指定填充字符，默认为空格。

import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({'data': ['a123bM', '456Cj', '789du', 'e11fo']})
print(df)
print("*"*20)
df['data'].str.center(20,"*")

1.2.5 .str contains() 含有特定字符

contains 方法可以判断子串是否在原字符串中。

import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({'data': ['a123bM', '456Cj', '789du', 'e11fo']})
print(df)
print("*"*20)
df['data'].str.contains("M")

1.2.6 .str count() 计数

count 用于计算给定元素在字符串中出现的次数。

import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({'data': ['a123bM', '456Cj', '789du', 'e11fo']})
print(df)
print("*"*20)
df['data'].str.count("(\d)")

1.2.7 .str endswith(suffix[, start[, end]]) 是否以指定后缀结尾

endswith() 方法用于判断字符串是否以指定后缀结尾，如果以指定后缀结尾返回True，否则返回False。可选参数"start"与"end"为检索字符串的开始与结束位置。

import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({'data': ['a123bM', '456Cj', '789du', 'e11fo']})
print(df)
print("*"*20)
df['data'].str.endswith('\d')

1.2.8 .str extract(pat[,flags=0,expand=True]) 提取特定字符

extract 方法用于提取正则表达式pat中的捕获组作为DataFrame中的列。对于系列中的每个主题字符串，从正则表达式pat的第一个匹配中提取组。

        pat : 带有捕获组的正则表达式模式。
        flags : int, default 0 (no flags)
        expand : 如果为真，则返回每个捕获组有一列的DataFrame。

df['data'].str.extract("(\d+)")

1.2.9 .str swapcase() 字符串大小写翻转

df['data'].str.swapcase()

1.2.10 .str find(str [beg=0, end=len(string)]) / findall 检测是否包含子字符串

find() 方法检测字符串中是否包含子字符串 str ，如果指定 beg（开始）和 end（结束）范围，则检查是否包含在指定范围内，如果包含子字符串返回开始的索引值，否则返回-1。

str -- 指定检索的字符串
beg -- 开始索引，默认为0。
end -- 结束索引，默认为字符串的长度。

import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({'data': ['a123aM', '45aCa', '789da', 'e11f5']})
print(df['data'].str.find('a'))
print(df['data'].str.findall('a'))

1.2.11 .str join(str]) 连接生成新字符串

join() 方法用于将序列中的元素以指定的字符连接生成一个新的字符串。

import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({'data': ['a123aM', '45aCa', '789da', 'e11f5']})
print(df['data'].str.join("-"))

1.2.12 .str replace(str1,str2]) str2 替换 str1

import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({'data': ['a123aM', '45aCa', '789da', 'e11f5']})
print(df['data'].str.replace("a","A"))

1.2.13 .str split(str[,num]) 用 str 分割字符串

split 通过指定分隔符对字符串进行切片，如果参数 num 有指定值，则分隔 num+1 个子字符串

import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({'data': ['a123aM', '45aCa', '789da', 'e11f5']})
print(df['data'].str.split("\d"))

1.2.14 .str translate(table) 字符转换

translate 用于执行字符转换操作。它接受一个映射表（translation table）作为参数，该映射表指定了要替换的字符以及它们的对应替换值。

import pandas as pd
# 创建一个示例 DataFrame
df = pd.DataFrame({'data': ['12345', '57890', '22222', '77777']})
table = str.maketrans( '0123456789','abcdefghij')
df['data'].str.translate(table)