深入了解Python Pandas的文本处理功能_python pandas 文本-CSDN博客

本文链接：https://blog.csdn.net/csdn1561168266/article/details/142105263

大家好，在数据分析中，文本数据的处理是一个非常重要的环节。无论是数据清洗、特征提取，还是自然语言处理，字符串操作都是不可或缺的一部分。Python的Pandas库提供了丰富的字符串操作函数，使得文本数据处理变得更加简单和高效。本文将介绍Pandas中常用的字符串操作方法，并通过具体的示例代码展示如何在实际应用中处理文本数据。

1.Pandas中的字符串操作概述

Pandas为Series和DataFrame提供了强大的字符串操作功能，这些操作主要通过.str访问器实现。无论是基本的字符串处理操作，如大小写转换、去除空白，还是复杂的正则表达式匹配、文本替换，Pandas都能轻松应对。

从一些基本的字符串操作开始，包括大小写转换、去除空白字符和字符串连接等。

import pandas as pd

# 创建一个包含字符串的数据框
data = {'姓名': ['张三', ' 李四 ', ' 王五', '赵 六']}
df = pd.DataFrame(data)

# 将字符串转换为大写
df['姓名大写'] = df['姓名'].str.upper()

# 去除字符串两端的空白字符
df['姓名去空白'] = df['姓名'].str.strip()

# 将字符串中的空白字符替换为下划线
df['姓名替换'] = df['姓名'].str.replace(' ', '_')

print(df)

运行代码输出结果：

      姓名   姓名大写  姓名去空白  姓名替换
0    张三     张三     张三     张三
1   李四     李四    李四    _李四_
2   王五     王五    王五    王五
3  赵 六     赵 六    赵六    赵_六

这个示例展示了如何将字符串转换为大写、去除空白字符以及替换字符串中的特定字符，Pandas中的这些基本操作可以轻松处理和规范化文本数据。

2.字符串分割与合并

在处理文本数据时，分割和合并字符串是非常常见的需求，Pandas提供了便捷的方法来实现这些操作。

2.1 字符串的分割

可以使用 .str.split() 方法将字符串按指定的分隔符进行拆分，并将结果存储在多个列中。

import pandas as pd

# 创建一个包含字符串的数据框
data = {'姓名': ['张三', '李四', '王五'], '信息': ['北京_30_男', '上海_25_女', '广州_40_男']}
df = pd.DataFrame(data)

# 将字符串按下划线分割，并存储到多个列中
df[['城市', '年龄', '性别']] = df['信息'].str.split('_', expand=True)

print(df)

运行代码输出结果：

   姓名       信息   城市  年龄  性别
0  张三  北京_30_男  北京  30   男
1  李四  上海_25_女  上海  25   女
2  王五  广州_40_男  广州  40   男

使用 .str.split('_', expand=True) 将信息列中的字符串按下划线分割，并将结果存储到新的 城市、年龄 和 性别 列中。

2.2 字符串的合并

字符串合并在构建新的文本字段时非常有用，可以使用 .str.cat() 方法将多个列中的字符串合并为一个。

import pandas as pd

# 创建一个包含多个字符串列的数据框
data = {'姓': ['张', '李', '王'], '名': ['三', '四', '五']}
df = pd.DataFrame(data)

# 合并姓和名，生成全名
df['姓名'] = df['姓'].str.cat(df['名'])

print(df)

运行代码输出结果：

   姓  名  姓名
0  张  三  张三
1  李  四  李四
2  王  五  王五

示例使用 .str.cat() 方法将 姓 和 名 列合并，生成了新的 姓名 列。

3.字符串匹配与提取

Pandas支持使用正则表达式来进行字符串匹配和提取，这使得处理复杂的文本数据变得非常方便。

3.1 使用正则表达式进行匹配

可以使用 .str.contains() 方法通过正则表达式匹配字符串，并返回一个布尔Series，用于筛选数据。

import pandas as pd

# 创建一个包含字符串的数据框
data = {'姓名': ['张三', '李四', '王五', '赵六'], '邮箱': ['zhangsan@abc.com', 'lisi@xyz.com', 'wangwu@abc.com', 'zhaoliu@def.com']}
df = pd.DataFrame(data)

# 使用正则表达式筛选出包含"abc.com"的邮箱
df_filtered = df[df['邮箱'].str.contains('@abc\.com')]

print(df_filtered)

运行代码输出结果：

   姓名              邮箱
0  张三  zhangsan@abc.com
2  王五   wangwu@abc.com

这个示例使用 .str.contains() 方法筛选出邮箱中包含 abc.com 的记录。

3.2 使用正则表达式提取子字符串

使用 .str.extract() 方法可以从字符串中提取符合特定模式的子字符串。

import pandas as pd

# 创建一个包含字符串的数据框
data = {'姓名': ['张三', '李四', '王五'], '信息': ['北京_30_男', '上海_25_女', '广州_40_男']}
df = pd.DataFrame(data)

# 提取年龄信息
df['年龄'] = df['信息'].str.extract('_(\d+)_')

print(df)

运行代码输出结果：

   姓名       信息  年龄
0  张三  北京_30_男  30
1  李四  上海_25_女  25
2  王五  广州_40_男  40

这个示例使用 .str.extract() 方法通过正则表达式提取了字符串中的年龄信息。

4.字符串替换与修正

在数据清洗过程中，经常需要对文本数据进行替换和修正。Pandas的字符串操作方法可以轻松完成这类任务。

4.1 字符串替换

可以使用 .str.replace() 方法来替换字符串中的特定内容。

import pandas as pd

# 创建一个包含字符串的数据框
data = {'姓名': ['张三', '李四', '王五'], '电话': ['010-12345678', '021-98765432', '020-11223344']}
df = pd.DataFrame(data)

# 将电话号码中的区号去掉
df['电话'] = df['电话'].str.replace('\d{3}-', '', regex=True)

print(df)

运行代码输出结果：

   姓名        电话
0  张三  12345678
1  李四  98765432
2  王五  11223344

这个示例使用 .str.replace() 方法去掉了电话号码中的区号部分。

4.2 修正拼写错误

对于有拼写错误的数据，可以使用 .str.replace() 方法进行修正。

import pandas as pd

# 创建一个包含字符串的数据框
data = {'产品名称': ['iPhon', 'Samsng', 'Huawe', 'iPhon', 'Samsng']}
df = pd.DataFrame(data)

# 修正拼写错误
df['产品名称'] = df['产品名称'].str.replace('iPhon', 'iPhone')
df['产品名称'] = df['产品名称'].str.replace('Samsng', 'Samsung')

print(df)

运行代码输出结果：

   产品名称
0  iPhone
1  Samsung
2  Huawe
3  iPhone
4  Samsung

这个示例通过 .str.replace() 方法修正了字符串中的拼写错误。

5.处理缺失的字符串数据

在处理字符串数据时，缺失值（NaN）是常见的情况。Pandas提供了一些方法来处理这些缺失的字符串数据。

5.1 填充缺失值

可以使用 .fillna() 方法为缺失的字符串数据填充值。

import pandas as pd

# 创建一个包含缺失值的数据框
data = {
    '姓名': ['张三', None, '王五'],
    '邮箱': ['zhangsan@abc.com', None, 'wangwu@abc.com']
}
df = pd.DataFrame(data)

# 使用fillna方法填充缺失值
df['姓名'] = df['姓名'].fillna('未知')
df['邮箱'] = df['邮箱'].fillna('暂无邮箱')

print(df)

运行代码输出结果：

   姓名              邮箱
0  张三  zhangsan@abc.com
1  未知            暂无邮箱
2  王五   wangwu@abc.com

这个示例使用 .fillna() 方法为缺失的姓名填充了字符串 '未知'，为缺失的邮箱填充了字符串 '暂无邮箱'，从而避免了缺失值带来的数据处理问题。

5.2 删除缺失值

有时候，可能希望删除包含缺失字符串的数据行，可以使用 .dropna() 方法实现这一目的。

import pandas as pd

# 创建一个包含缺失值的数据框
data = {
    '姓名': ['张三', None, '王五'],
    '邮箱': ['zhangsan@abc.com', None, 'wangwu@abc.com']
}
df = pd.DataFrame(data)

# 使用dropna方法删除包含缺失值的行
df_clean = df.dropna()

print(df_clean)

运行代码输出结果：

   姓名              邮箱
0  张三  zhangsan@abc.com
2  王五   wangwu@abc.com

这个示例使用 .dropna() 方法删除了包含缺失值的第二行数据，得到一个干净的数据集。

本文介绍了Python Pandas库中处理字符串和文本数据的各种方法。从基本的字符串操作，如大小写转换、去除空白字符、字符串分割与合并，到高级的正则表达式匹配与提取，以及处理缺失值和数据清洗的实际应用案例，Pandas都提供了丰富而强大的工具集。掌握这些字符串操作方法，可以帮助数据分析师和工程师在处理文本数据时更加高效和准确。无论是在数据预处理、特征工程，还是在自然语言处理的前期步骤中，Pandas的字符串操作功能都能发挥重要作用。