数据分析和建模方面的大量编程工作都是用在数据准备上的:加载、清理、转换以及重塑。
合并数据集:
- pd.merge:数据库关联操作
- pd.concat:沿一条轴将多个对象堆叠到一起
- combine_first方法:用一个对象的值填充另一个对象中的缺失值
1. pd.merge(写代码的时候,尽量将how,left_on,right_on等参数填写全面)
Note:
- 如果没有说明用哪个列进行连接,merge就会将重名列当做键
- 根据多个键进行合并,在left_on、right_on参数中传入由列名组成的列表即可
- 使用suffixes参数,处理合并后的重复列名
- DataFrame.join实例方法,可以更方便地实现按索引合并
2. pd.concat
Numpy有一个用于合并原始numpy数据的concatenation函数
对于pandas对象,带有标签的轴使你能够进一步推广数据的连接运算
Note:
- 默认情况下,axis=0
- join_axes:指定结果集的索引
- keys:创建层次化索引
- names:层次化索引命名
- ignore_index:如果为False,则忽略原数据的索引,按0,1,...n-1重新索引
Eg:
3. DataFrame.combine_first
Eg1.
Eg2.