pandas的字符串的分割之str.split()

CtrlZ1

已于 2023-03-18 22:26:31 修改

阅读量2.1w

点赞数 16

分类专栏：机器学习深度学习代码知识文章标签：机器学习 pandas

于 2019-11-22 19:30:20 首次发布

原文链接：https://www.jianshu.com/p/4a2ecf65e3ea

版权

机器学习深度学习代码知识专栏收录该内容

32 篇文章

订阅专栏

分列在我们日常工作中经常用到，从各种系统中导出的什么订单号、名称、日期很多都是复合组成的，这些列在匹配、合并时没有办法使用，我们经常需要将她们分开。

像下面的DataFrame, 城市是复合的，变电站也是复合的，我们只需要一部分，要怎么操作呢？

DataFrame数据

网上搜索了一下，以前的做法是将要分的那列迭代并用split()分开，然后将分开后的数据新建一个DataFrame，然后再与原数据合并。比较复杂，大概的代码如下：

使用split和merge函数

其实原理清楚的话也不是很复杂。

当然我这里还有稍微简单的办法，其实原理基本一样，只是不再使用迭代，只需要df['柜台名称'].str.split('-')取代 x.split('-') for x in df['柜台名称']

使用str.split分列

我们看到出来的结果已经有索引和列名，明显已经是一个DataFrame了，这就是参数expand=True的作用。

指定expand=True生成DataFrame

在这里新的DataFrame和原数据df都是使用的默认索引，索引是一致的，可以以索引为键，使用merge()合并。如果索引不同的话，就需要重新设置索引了。

使用merge函数连接

使用merge函数连接（简洁版）

注意：如果直接用某一列和split()来分列是不行的，因为Series数据类型是没有split()的，所以需要先用.str将这一列转换为类似字符串的格式，就能够使用split()了。

str.split()有三个参数：第一个参数就是引号里的内容：就是分列的依据，可以是空格，符号，字符串等等。

按字符串分列

在上面这个图里，使用‘岸’作为分列依据，含有岸行就分开了。

第二个参数就是前面用到的expand=True，这个参数直接将分列后的结果转换成DataFrame。

第三个参数的n=数字就是限制分列的次数。

就是当用于分列的依据符号在有多个的话需要指定分列的次数（不指定的话就会根据符号有几个分列几次）。

我们先修改一下df的数据：

DataFrame数据

默认全部分列：

默认不选n的参数

n=1和n=2

如果我想从最右边的开始找分列的依据，可以使用rsplit()，rsplit和split()的用法类似，一个从右边开始，一个从左边开始。

作者：探索数据之美
链接：https://www.jianshu.com/p/4a2ecf65e3ea
来源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。