DataFrame案例：把数据变成指定格式数据（字符串分割、清洗、合并、重新建立索引）

最新推荐文章于 2023-06-07 09:04:36 发布

suntx”

最新推荐文章于 2023-06-07 09:04:36 发布

阅读量888

点赞数

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/qq_43590972/article/details/102665797

版权

python 专栏收录该内容

23 篇文章 1 订阅

订阅专栏

数据建模之前，我们从数据部门拿到数据，但是这些数据的格式往往并不是我们可以直接使用的，比如下面表中的数据（左：原数据格式）。

原数据格式id自成一列，这个很好，但是标签和标签的置信度（这个id属于这个标签的可能性）都在一个单元格里，仅用空格分隔开来，这对数据处理的过程中很不方便。

我们需要将数据转化成右图格式（右：所需数据格式），这有利于我们用id和其他表格中的数据匹配。

原数据格式：	id	标签	所需数据格式：	id	tag	tag置信度
	222201	数学老师 0.67 父亲 0.87 儿子 0.77		222201	数学老师	0.67
	222202	全职太太 0.56 孕妈 0.45		222202	全职太太	0.56
	222203	大学生 0.33 服务员 0.48 社团主席 0.68		222203	大学生	0.33
	222204	父亲 0.79 服务员 0.56		222204	父亲	0.79
	222205	语文老师 0.89		222205	语文老师	0.89
	222206	教导员 0.86 数学老师 0.74		222206	教导员	0.86
	222207	大学生 0.65		222207	大学生	0.65

Python代码：

import pandas as pd
 
datafile = u'D:\\pythondata\\learn\\split.xlsx'
data = pd.read_excel(datafile)
 
n = 3 #n表示一个id最多有多少个标签
names=data['标签'].str.split(' ',expand=True) #将标签列按照空格分割数据
names.columns=['tag','tag置信度'] * n  #分割为多列之后为列重命名
 
data_total = pd.DataFrame(columns=['id', 'tag', 'tag置信度'])#设置一个空的DataFrame
for i in range(n):
    data_0i = pd.concat([data.iloc[:,:1], names.iloc[:,i*2:(i+1)*2]], axis = 1, join='outer', sort=False)
    data_0i = data_0i.dropna()#删除包含空值的行
    data_total = pd.concat([data_total, data_0i],axis=0)#向下合并数据
    data_total = data_total.reset_index(drop = True)#重新建立索引，代替原有的索引
print(data_total)

在实现这个格式转化的过程中，我们涉及到分割函数 split（）、合并函数 concat（）、删除缺失值函数 dropna（）、建立索引 reset_index（）。