【编程实践】Joyful-Pandas（下）Task02（第七章）：文本数据

最新推荐文章于 2024-08-06 17:20:59 发布

李洋Brandon

最新推荐文章于 2024-08-06 17:20:59 发布

阅读量322

点赞数

分类专栏： Datawhale python pandas 文章标签： python

本文链接：https://blog.csdn.net/Brandon_Y_Lee/article/details/106970242

版权

本文深入探讨了Pandas中处理文本数据的技巧，包括字符串类型的性质，如与object的区别，字符串转换，拆分与拼接，替换，子串匹配与提取，以及常用字符串方法。通过实例介绍了str.split、str.cat、str.replace等方法的用法，并提供了相关练习题以巩固学习。

摘要由CSDN通过智能技术生成

缺失数据和文本数据（尤其是混杂性文本）是数据预处理中比较麻烦的类型，本章节聚焦于文本数据。

理论部分

练习部分

import pandas as pd
import numpy as np

string类型的性质

string类型和object不同之处有三：

字符存取方法（string accessor methods，如str.count）会返回相应数据的Nullable类型，而object会随缺失值的存在而改变返回类型
某些Series方法不能在string上使用，例如： Series.str.decode()，因为存储的是字符串而不是字节
string类型在缺失值存储或运算时，类型会广播为pd.NA，而不是浮点型np.nan
其余全部内容在当前版本下完全一致，但迎合Pandas的发展模式，我们仍然全部用string来操作字符串

如果将一个其他类型的容器直接转换string类型可能会出错：

#pd.Series([1,'1.']).astype('string') #报错
#pd.Series([1,2]).astype('string') #报错
#pd.Series([True,False]).astype('string') #报错

当下正确的方法是分两部转换，先转为str型object，在转为string类型：

pd.Series([1,'1.']).astype('str').astype('string')

pd.Series([1,2]).astype('str').astype('string')

pd.Series([True,False]).astype('str').astype('string')

关注

专栏目录