利用python进行数据分析——合并数据集

数据分析和建模方面的大量编程工作都是用在数据准备上的:加载、清理、转换以及重塑。

合并数据集:

  • pd.merge:数据库关联操作
  • pd.concat:沿一条轴将多个对象堆叠到一起
  • combine_first方法:用一个对象的值填充另一个对象中的缺失值

1. pd.merge(写代码的时候,尽量将how,left_on,right_on等参数填写全面)

 Note:

  1. 如果没有说明用哪个列进行连接,merge就会将重名列当做键
  2. 根据多个键进行合并,在left_on、right_on参数中传入由列名组成的列表即可
  3. 使用suffixes参数,处理合并后的重复列名
  4. DataFrame.join实例方法,可以更方便地实现按索引合并

2. pd.concat

      Numpy有一个用于合并原始numpy数据的concatenation函数

      对于pandas对象,带有标签的轴使你能够进一步推广数据的连接运算

 Note:

  1. 默认情况下,axis=0
  2. join_axes:指定结果集的索引
  3. keys:创建层次化索引
  4. names:层次化索引命名
  5. ignore_index:如果为False,则忽略原数据的索引,按0,1,...n-1重新索引

Eg:

 3. DataFrame.combine_first

 Eg1.

 Eg2.

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值