python和stata_在Python中实现Stata的stack功能

本文详细介绍了如何使用Python的pandas库进行数据堆叠和重塑操作。首先,通过read_excel读取Excel文件,然后使用stack()函数将多列数据堆叠成一列,并展示了unstack()函数如何返回原始数据布局。接着,通过append()函数实现了多列数据的合并,展示了如何将数据集的两部分进行纵向拼接,从而完成数据重塑。这些操作对于数据预处理和分析非常实用。
摘要由CSDN通过智能技术生成

本文作者:王碧琪,中南财经政法大学金融学院

文字编辑:任 哲

技术总编:张馨月

一、多列变一列

在文章《用stack取代excel的数据重整操作吧》中介绍了Stata中的stack操作,今天本文将使用Python中的pandas库来实现相同功能。

(一)准备工作

首先,更改工作路径,导入相关库,读取xlsx文件。本文所使用的“身高.xlsx”文件中包含5列数据,每列数据包含12行,每一个变量值都是身高。将五列数据的列名分别设置为A、B、C、D、E,代表5个班级,我们的最终目的是把5列数据堆叠到1列中。

import os

os.chdir('g:/stack') #更改工作路径

import pandas as pd #导入pandas库

#多变一 读取xlsx文件

df1=pd.read_excel('身高.xlsx',header=None,names=['A','B','C','D','E']) #设置列名为A-E

print(df1)

3d23fbc019c2

image

(二)堆叠处理

下面,对该数据集进行堆叠处理,所使用的函数为pandas库中包含stack()函数。

该函数的官方描述为从列到索引堆叠指定类别。与当前数据相比,堆叠后的数据新生成了一个或者多个最内层索引,最内层索引是通过旋转当前数据的列而生成的。

该函数的语法为:DataFrame.stack(level=-1,dropna=True)

其中,level代表从列到索引的层次,默认为-1,dropna为是否删除包含缺失值的行,默认为True。

接下来对df1进行操作。

df2=df1.stack()

print(df2)

#df2.to_excel('out身高.xlsx') #导出数据

部分结果如下:

3d23fbc019c2

image

结果显示,df2包含2列数据,第一列为df1的列名,第二列为df1中对应的身高数据。stack()函数将df1中的A-E列堆叠到df2的第一列中,形成了一层新的内层索引。

(三)返回原始数据

pandas中也包含stack()函数的反函数unstack(),可以返回到堆叠前的数据。

df3=df2.unstack()

df3

3d23fbc019c2

image

可以看到,df3与最初的df1完全相同。

二、多列变多列

(一)读取数据

首先,读入“股票行情.csv”,该数据集共包括16列、59行数据。其中,前8列与后8列均为股票交易数据,由于列名不能重复,9-16列的列名自动加上后缀.1。

#多变多 读取csv文件

df4=pd.read_csv('股票行情.csv',encoding='gb18030')

df4

部分结果如下:

3d23fbc019c2

image

(二)拆分数据

接下来,选取第9-16列数据,重命名为1-8列的列名,使二者列名完全相同,方便下一步合并。

df5=df4.iloc[:,8:] #选取第9-16列的数据

df5.columns=['交易日期','证券代码','证券简称','前收','今收','升跌(%)','成交金额(元)','市盈率'] #重命名列名

df5

部分结果如下:

3d23fbc019c2

image

(三)重整数据

按照类似的原理,将前8列数据进行重整,创建df6。之后,采用append()函数纵向拼接。

df6=df4.iloc[:,:8] #选取前8列数据

df7=df6.append(df5,ignore_index=True) #将前8列数据和后8列数据纵向拼接,忽略索引值

df7

#df7.to_excel('out股票行情.xlsx') #导出数据

结果如下:

3d23fbc019c2

image

结果显示,df7中包含118行、8列数据,append()函数将上述两个df纵向拼接起来,得到目标结果。

以上就是如何利用Python中的pandas库进行操作来实现stack的功能。当然,本文只展示了其中部分功能,感兴趣的小伙伴们可以继续深挖学习pandas哦~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值