动手学数据分析之数据重构
1.数据的合并
# 0、导入基本库
import pandas as pd
import numpy as np
text_left_up = pd.read_csv('text_left_up.csv')
text_right_up = pd.read_csv('text_right_up.csv')
text_left_down = pd.read_csv('text_left_down.csv')
text_right_down = pd.read_csv('text_right_down.csv')
# 1、合并
# 1.1、使用concat方法(按方向拼接)
list_up = [text_left_up,text_right_up]
list_down=[text_left_down,text_right_down]
result_up = pd.concat(list_up,axis=1) # 横向合并
result=pd.concat(list_down,axis=0) # 纵向合并
# 1.2、使用df自带的jion方法和append
### DataFrame.join(other, on=None, how='left',sort=False)
result_up=text_left_up.join(text_right_up,how='outer') # 横向拼接
result_down=text_left_down.join(text_right_down,how='outer') # 横向拼接
result = result_up.append(result_down) # 纵向拼接
# 1.3 使用pd自带的merge方法和append
result_up=pd.merge(text_left_up,text_right_up,how='outer') # 横向拼接
result_down=pd.merge(text_left_down,text_right_down,how='outer') # 横向拼接
result = result_up.append(result_down) # 纵向拼接
2. 列旋转到行,列旋转到行
stack()即“堆叠”,作用是将列旋转到行
unstack()即stack()的反操作,将列旋转到行
# 2.1 列转行的旋转,形成多层索引,stack()操作后返回的对象是Series类型
text = pd.read_csv('result.csv')
unit_result=text.stack('state') # 行列互换
unit_result=text.unstack('state') # 行列互换
3.分组聚合
# 法一:df聚合
data1=data.groupby(by=['Sex'])['Survived'].sum() #按性别分组,求出存活人数
# 法二:series聚合
data2=data['Sex'].groupby('Survived').sum() #按性别分组,求出存活人数