【python】pandas某一列中每一行拆分成多行的方法

最新推荐文章于 2024-06-08 22:04:16 发布

云中鲸

最新推荐文章于 2024-06-08 22:04:16 发布

阅读量6.4k

点赞数 6

分类专栏： Python 文章标签： python 数据分析

原文链接：https://blog.csdn.net/dongcheng_/article/details/84624789

版权

Python 专栏收录该内容

115 篇文章

订阅专栏

在处理数据过程中，常会遇到将一条数据拆分成多条，比如一个人的地址信息中，可能有多条地址，既有家庭地址也有工作地址，还有电话信息等等类似的情况，实际使用数据的时候又需要分开处理，这个时候就需要将这一条数据进行拆分成多条，以方便使用。
在pandas中如何对DataFrame进行相关操作呢，经查阅相关资料，发现了一个简单的办法，

info.drop(['city'], axis=1).join(info['city'].str.split(' ', expand=True).stack().reset_index(level=1, drop=True).rename('city'))
1

看起来非常之长，分开来看，流程如下：

将需要拆分的数据使用split拆分工具拆分，并使用expand功能拆分成多列
将拆分后的多列数据进行列转行操作(stack)，合并成一列
将生成的复合索引重新进行reset保留原始的索引,并命名
将上面处理后的DataFrame和原始DataFrame进行join操作，默认使用的是索引进行连接

具体操作如下：

预操作：生成需要使用的DataFrame

# 用来生成DataFrame的工具
from pydbgen import pydbgen
myDB=pydbgen.pydb()

# 生成一个DataFrame
info = myDB.gen_dataframe(10,['name','phone','city','state'])
123456

结果如下：

	name	phone-number	city	state
0	Hannah Richard	810-859-7815	Irwinville	Louisiana
1	Ronald Berry	591-564-0585	Glen Ellen	Minnesota
2	Caitlin Barron	969-840-8580	Dubois	Oklahoma
3	Felicia Stephens	154-858-1233	Veedersburg	Alaska
4	Shelly Dennis	343-104-9365	Mattapex	Virginia
5	Nicholas Hill	992-239-1954	Moneta	Minnesota
6	Steve Bradshaw	164-081-7811	Ten Broeck	Colorado
7	Gail Johnston	155-259-9514	Wayan	Virginia
8	John Gray	409-892-4716	Darlington	Pennsylvania
9	Katherine Bautista	185-861-1677	McNab	Texas

假如现在我们要对city列进行进行拆分，按照空格拆分，转换成多行的数据，
第一步：拆分，生成多列

info_city = info['city'].str.split(' ', expand=True)
1

结果如下：

	0	1
0	Irwinville	None
1	Glen	Ellen
2	Dubois	None
3	Veedersburg	None
4	Mattapex	None
5	Moneta	None
6	Ten	Broeck
7	Wayan	None
8	Darlington	None
9	McNab	None

可以看到已经将原始数据拆分成了2列，对于无法拆分的数据为None

第二步：行转列

info_city = info_city.stack()
1

结果如下：


0	0	Irwinville
1	0	Glen
	1	Ellen
2	0	Dubois
3	0	Veedersburg
4	0	Mattapex
5	0	Moneta
6	0	Ten
	1	Broeck
7	0	Wayan
8	0	Darlington
9	0	McNab

其中前面两列是索引，返回的是一个series，没有名字的series

第三步：重置索引，并命名（并删除多于的索引）

info_city = info_city.reset_index(level=1, drop=True)
1

结果如下：


0	Irwinville
1	Glen
1	Ellen
2	Dubois
3	Veedersburg
4	Mattapex
5	Moneta
6	Ten
6	Broeck
7	Wayan
8	Darlington
9	McNab

第四步：和原始数据合并

info_new = info.drop(['city'], axis=1).join(info_city)
1

结果如下：

	name	phone-number	state	city
0	Hannah Richard	810-859-7815	Louisiana	Irwinville
1	Ronald Berry	591-564-0585	Minnesota	Glen
1	Ronald Berry	591-564-0585	Minnesota	Ellen
2	Caitlin Barron	969-840-8580	Oklahoma	Dubois
3	Felicia Stephens	154-858-1233	Alaska	Veedersburg
4	Shelly Dennis	343-104-9365	Virginia	Mattapex
5	Nicholas Hill	992-239-1954	Minnesota	Moneta
6	Steve Bradshaw	164-081-7811	Colorado	Ten
6	Steve Bradshaw	164-081-7811	Colorado	Broeck
7	Gail Johnston	155-259-9514	Virginia	Wayan
8	John Gray	409-892-4716	Pennsylvania	Darlington
9	Katherine Bautista	185-861-1677	Texas	McNab

需要特别注意的是，需要使用原始的连接新生成的，因为新生成的是一个series没有join方法，也可以通过将生成的series通过to_frame方法转换成DataFrame，这样就没有什么差异了

写了这么多，记住下面的就行了：

info.drop([‘city’], axis=1).join(info[‘city’].str.split(’ ', expand=True).stack().reset_index(level=1, drop=True).rename(‘city’))

如果原数据中已经是list了，可以将info[‘city’].str.split(’ ', expand=True)这部分替换成info[‘city’].apply(lambda x: pd.Series(x))，就可以达到相同的目的。