笔者浅见,想要理解psm-did,最好要先理解好匹配,倾向性匹配psm、did都干什么进而理解psm-did,这里以知识付费场景为例,通过研究用户参加知识星球后今年可以提升多少收入?为了估算这个问题帮助小伙伴的很好的理解,关于这个问题,我们可以通过以下几种思想方法来对知识星球带来的收入提高进行估算:(假设)
- 同一家公司小王和小明,没参加星球前小王、小明收入随时间变化是一样的,小王去年从每个月5000涨到每个月5500,小明从每个月5100涨到每个月5600(时间变化趋势一致,都每个月涨了500),后来小王加入了渭河的知识星球,今年从每个月5500涨到了每个月6500每个月涨了1000,小明没有参加今年从每个月5600涨到每个月6100,每个月涨了500,那么我们可以认为参加渭河星球当年帮助用户小王多涨500(1000(时间效应和星球效应叠加)-500(时间效应))这就是DID方法。
- 通过HR总结的经验来看,比如最影响用户收入因素主要是用户的年龄、性别和学历(瞎说的),参加星球的小王年龄为24,学历本科、性别男,我们可以发现公司里没有参加星球的小林刚好也是年龄25,本科男和小王在这几个因素上最为相近,可以看到小王今年每个月涨了1000,而小林今年每个月涨了800,那么我们可以认为参加渭河星球当年可帮助用户小王每月涨200(1000(其他可观察的影响效应和星球效应叠加)-800(其他可观察的影响效应)),这就是匹配的思想方法。
更进一步为了更好总结可观察的影响效应,我们用一个二分类模型可以训练每个人参加渭河星球的意愿概率P,用P来表示用户得分,得分越相近,用户越相近,于是通过模型预测我们得到小王这类人参与的概率是0.67,与公司的为参与星球小谢(0.65)最为相近,小王今年每月涨了100,小谢每月涨了600,于是可以认为参加渭河星球当年可帮助用户小王每月涨400(900(其他可观察的影响效应和星球效应叠加)-600(其他可观察的影响效应))这就是倾向性匹配PSM的思想方法 - 理解PSM、DID后,PSM-DID方法结合两种思想,先用PSM方法找到和小王最相近的小林和小谢,再选出和小王参加星球前(参加前每年涨500,参加后当年涨1000)收入变化最近的小林(参加前时间每年涨500,没参加后当年涨了800),那么我们可以认为参加渭河星球当年可帮助用户小王每月涨200(1000(可观察的影响效应、时间效应和星球效应叠加)-800(可观察的影响效应、时间内生效应叠加))
更详细模型方法介绍可见:常用因果推断方法介绍、《数据科学工程实践》第6章内容或其他参考资料