这一节,我们的目标是想把 transaction 数据 和 transaction_detail 数据 也合并到一起。
和上一节的concat合并(数据列相同)不同,这次的两个数据集合,数据列是不同的。所以,合并时就会有下面的问题:
- 是将两个数据集合的数据列全部合并?还是只合并必要的数据列?
- 两个数据集合合并的连接点是哪个数据列?
带着上面的问题,我们还是回到刘先生的需求:如何让自己的店铺销量越来越好?
- 显然从销量的角度,还是以更有利于分析的 transaction_detail 为主,transaction 为辅。也就是说,将 transaction_detail 中的数据列全部合并,而将 transaction 数据 中的部分数据列合并。至于选择哪些数据列,则没有要求,根据你的具体选择而定。这里我们将“payment_date”和“customer_id”合并进来。
- 通过观察两个数据集,可以发现共同存在的数据列是“transaction_id”,所以,就以这个数据列作为