python数据分析论文结构_python 数据分析实现长宽格式的转换

我就废话不多说了,大家还是直接看代码吧!

# encoding=utf-8

import numpy as np

import pandas as pd

# 长宽格式的转换

# 1

data = pd.read_csv('d:data/macrodata.csv')

print 'data:=\n', data

print 'data.to_records():=\n', data.to_records()

print 'data.year:=\n', data.year

print 'data.quarter:=\n', data.quarter

periods = pd.PeriodIndex(year=data.year, quarter=data.quarter, name='date')

print 'periods:=\n', periods

data = pd.DataFrame(data.to_records(),

columns=pd.Index(['realgdp', 'infl', 'unemp'], name='item'),

index=periods.to_timestamp('D', 'end'))

print 'data:=\n', data

ldata = data.stack().reset_index().rename(columns={0: 'value'})

# print 'ldata:=\n', ldata

print 'ldata.get(\'realgdp\'):=\n', ldata.get('realgdp')

print 'ldata.get(\'unemp\'):=\n', ldata.get('unemp')

wdata = ldata.pivot('date', 'item', 'value')

print 'ldata:=\n', ldata

print 'wdata:=\n', wdata

# 2

print 'ldata[:10]:=\n', ldata[:10]

pivoted = ldata.pivot('date', 'item', 'value')

print 'pivoted:=\n', pivoted

print 'pivoted.head():=\n', pivoted.head()

print 'ldata:=\n', ldata

ldata['value2'] = np.random.randn(len(ldata))

print 'ldata[\'value2\']:=\n', ldata['value2']

print 'ldata[:10]:=\n', ldata[:10]

pivoted = ldata.pivot('date', 'item')

print 'pivoted:=\n', pivoted

print pivoted[:5]

print 'pivoted[\'value\'][:5]:=\n', pivoted['value'][:5]

print 'ldata:=\n', ldata

unstacked = ldata.set_index(['date', 'item']).unstack('item')

print 'unstacked:=\n', unstacked

print 'test'

补充知识:python使用_pandas_用stack和unstack进行行列重塑(key-value变宽表)

数据结构的重塑(reshape)

与数据库交互时常遇到堆叠格式(key-value)和宽表形式(dataframe)的转换,如:

堆叠格式:

20200518164024.jpg

宽表形式dataframe:

20200518164030.jpg

下面是相互转换的示例代码:

import pandas as pd

import numpy as np

# 常用的表格形式的数据结构

df = pd.DataFrame(np.arange(6).reshape((2,3)), index=['id1','id2'], columns=['attr1','attr2','attr3'])

print(df)

out:

attr1 attr2 attr3

id1 0 1 2

id2 3 4 5

# 宽表形式(dataframe)转变为堆叠形式(key-value)形式

# 数据库中常以该形式存储

df_key_value = df.stack().reset_index()

df_key_value.columns = ['id', 'attr', 'value']

print(df_key_value)

out:

idattrvalue

0id1attr10

1id1attr21

2id1attr32

3id2attr13

4id2attr24

5id2attr35

# 堆叠转换为宽表形式

# 用set_index创建层次化索引,在用unstack重塑

# unstack中作为旋转轴的变量(如attr),其值会作为列变量展开

df_key_value.set_index(['id','attr']).unstack('attr')

out:

value

attrattr1attr2attr3

id

id1012

id2345

# 多层索引转化为宽表

df_long = df_key_value.set_index(['id','attr']).unstack('attr')['value'].reset_index()

df_long

out:

attridattr1attr2attr3

0id1012

1id2345

# 堆叠转换为宽表的快捷键---pivot

df_key_value.pivot('id','attr','value')

out:

attrattr1attr2attr3

id

id1012

id2345

以上这篇python 数据分析实现长宽格式的转换就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值