一、数据的合并
有时候单个excel表格中的文件内容并不完整,完整内容可能是多个excel表格合并的内容
- pd.concat()
pd.concat()可以用于数据的合并
pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, copy=True)
#obj: DataFrame 或者 Series
#axis:沿着哪个轴合并,=1横向合并
#ignore_index:重新设置DataFrame对象的index值
#join:outer:并 inner:交,即只合并相同列
result = pd.concat([text_left,text_right], axis = 1) #把表的左半部分和右半部分合并起来(横向合并)
- join()和append()
join()是一种快速合并的方法,它默认以index作为对齐的列
join(other,on=None,how=“left”,lsuffix=" “,rsuffix=” ",sort=False)
#on:
#how:合并方式,left,right,outer,inner
#lsuffix:接收字符串,用于在左侧重叠的列名后添加后缀名
#rsuffix:接收字符串,用于在右侧重叠的列名后添加后缀名
#sort:接收布尔值,根据连接键对合并的数据进行排序
用于合并表格的时候,join()方法可以用于横向合并,append()方法可以用于纵向合并
- pd.merge()和append()
DataFrame.merge(right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), copy=True, indicator=False, validate=None)
#left/right:参与合并的左侧/右侧DataFrame
#on:用于连接的列名,未指定时就将left和right列名的交集作为连接键
#how:合并方式,left,right,outer,inner
#left_on/right_on:左侧/右侧DataFrame中用作连接键的列
#left_index/right_index:左侧/右侧的行索引用作其连接键
用于合并表格的时候,merge()方法可以用于横向合并,append()方法可以用于纵向合并
二、数据聚合
数据聚合是指把相似的对象通过静态分类的方法分成不同组别或者更多的子集,让在同一子集中的成员对象有相似的一些属性
df.groupby(['key1']) #使用单特征进行划分
df.groupby(['key1','key2]])#使用多特征对表格划分
df['data1','data2'].groupby(['key1'])#使用单特征对表格中部分元素进行划分
以上学习内容来自Datawhale