在dataframe中如何对某列的值进行分割或者提取

最新推荐文章于 2024-07-10 16:11:34 发布

野边的路猫

最新推荐文章于 2024-07-10 16:11:34 发布

阅读量9.6k

点赞数 6

分类专栏：数据预处理遇到的坑文章标签： python

本文链接：https://blog.csdn.net/C10997/article/details/109570797

版权

数据预处理遇到的坑专栏收录该内容

4 篇文章 0 订阅

订阅专栏

#本方法主要是无法使用split的情况，即文本中没有明显分隔符。
在数据预处理的时候，会将单条数据特征组合成为文本放入某列中。一般情况下，会有分割符将其分割开，推荐使用split方法
#但是也可能会出现类似下面的文本，没有明显分割符。此时需要考虑str[\d:\d]的格式对文本进行裁剪，获取新列。
在这里插入图片描述
这里，我希望把年份提取出来作为新列。那么就是variable列的[3:7]部分。

#我先尝试了NTL_reject['year'] = NTL_reject['variable'][3:7],发现并不能提取出我需要的东西，正确语句应当如下：
NTL_reject['year'] = NTL_reject['variable'].apply(lambda x:x[3:7])
NTL_reject.head()

在这里插入图片描述
得到year列
##这里讲以下简单原理
主要是针对Series的apply函数应用。
Series就是Dataframe的组成单元。df[col]提取出来的就是Series格式。【我是这样理解的，如果有错误请在评论区指出~】
而apply（）中引用的函数会依次应用到该列的每一个元素，产生新列。apply（)经常和lambda合并使用

野边的路猫

关注

6
点赞
踩
41

收藏

觉得还不错? 一键收藏
2
评论
在dataframe中如何对某列的值进行分割或者提取

#本方法主要是无法使用split的情况，即文本中没有明显分隔符。在数据预处理的时候，会将单条数据特征组合成为文本放入某列中。一般情况下，会有分割符将其分割开，推荐使用split方法#但是也可能会出现类似下面的文本，没有明显分割符。此时需要考虑str[\d:\d]的格式对文本进行裁剪，获取新列。这里，我希望把年份提取出来作为新列。那么就是variable列的[3:7]部分。#我先尝试了NTL_reject['year'] = NTL_reject['variable'][3:7],发现并不能提取出我
复制链接

扫一扫

专栏目录