基于pandas的文本数据（字符串）处理

最新推荐文章于 2023-04-04 17:02:39 发布

ZCH_Debby

最新推荐文章于 2023-04-04 17:02:39 发布

阅读量798

点赞数

本文链接：https://blog.csdn.net/ZCH_Debby/article/details/106974592

版权

一、String类型的性质

string类型和object不同之处有三：

字符存取方法（string accessor methods，如str.count）会返回相应数据的Nullable类型，而object会随缺失值的存在而改变返回类型
某些Series方法不能在string上使用，例如： Series.str.decode()，因为存储的是字符串而不是字节
string类型在缺失值存储或运算时，类型会广播为pd.NA，而不是浮点型np.nan

为迎合pandas的发展模式，这里仍全部用string来操作字符串。

如果将一个其他类型（如int、float、bool型数据）的容器直接转换string类型可能会出错：
在这里插入图片描述

当下正确的方法是分两部转换，先转为str型object，在转为string类型：
在这里插入图片描述

在这里插入图片描述

广义上的替换，就是指str.replace函数的应用，fillna是针对缺失值的替换，提到替换，就不可避免地接触到正则表达式。
在这里插入图片描述

与extract只匹配第一个符合条件的表达式不同，extractall会找出所有符合条件的字符串，并建立多级索引（即使只找到一个）
在这里插入图片描述

在这里插入图片描述

检查每一位是否都是数字
在这里插入图片描述

关注