psm倾向得分匹配法举例_样本选择偏误,自选择偏误以及自选择偏误的解决办法:倾向得分匹配(PMS)和广义倾向得分(GPS)...

5ae82e7e431e666313f3f11ac213b5f9.png

俗话说得好:“夜里若是三秒郎,原谅草帽戴不完”。王二狗今年刚满50就觉得有点力不从心。他听说最近新出了一款阿三大力丸,能增强耐久度,让你做到“一小时真男人”。于是二狗决定去求证一下“是否该大力丸能增强持久度”这个问题。

二狗所在的村庄很奇怪,男人除了年龄之外,其他和持久度有关的特征都一样。也就是说在不吃药的情况下,只有年龄能影响他们的持久度。

这一天,二狗为了考察药效这个问题,来到了村里唯一一个这种药的专卖店,只要有人进这个店,无论有没有买,他都凑上去问这个人是否吃了这个药以及最近一次的持久度(没错!这个村就是喜欢计时,就是这么变态)。一天下来,他整理了如下表格(1代表吃了,0代表没吃):

对象 年龄 是否吃了大力丸 持久度(分钟)
A 55 1 15
B 60 1 10
C 45 1 8
D 52 1 20
E 57 1 16
F 62 1 5
G 30 0 30
H 40 0 18
I 50 0 25

二狗一看,吃了大力丸的平均持久度是12.3分钟,没吃的平均持久度是24.3分钟。这尼玛越吃越不行???“看来我是没机会了“,二狗一边想着一边要去爬山。这时路上村长,村长是个有学识的人,一看他的这个调查报告就指出了问题所在:你在专卖店调查,去的人大多都是吃药的人,据村里一些村姑的反应,很多没去买药吃药的人也不行啊。你这个样本里面都没有包含这些人,所以你这个调查是有问题的。好像那些喜欢装高深的人把这个叫做样本选择偏差, Sample Selection Bias !, 而且啊….“

还没等村长说完而且,二狗又觉得自己有希望了,赶紧跑回家去修改自己的调查过程。路上他突然觉得村长有问题:村姑为啥会和他反应这问题?

来不及多想,第二天二狗就展开了第二次调查,这次,他不去专卖店了,在村里随机找人问,然后得到了以下的表格(对,没错,我懒得编了,就在下面多加了几个,就假设这是重新调查的吧)

对象 年龄 是否吃了大力丸 持久度(分钟)
A 55 1 15
B 60 1 10
C 45 1 8
D 52 1 20
E 57 1 16
F 62 1 5
  • 8
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
PSM(Propensity Score Matching)倾向得分匹配是一种常用的因果推断方。它主要用于处理观测数据中的选择偏倚,通过倾向得分匹配的方来估计因果效应。 在倾向得分匹配中,首先需要建立一个预测模型,即倾向得分模型。该模型基于一系列的协变量(观测数据的特征),来预测个体的倾向得分,即个体被暴露于某一处理的概率。常用的建模方包括逻辑回归、梯度提升树等。倾向得分模型的建立旨在消除协变量在处理选择上的影响。 接下来,根据个体的倾向得分进行匹配匹配原则是寻找在处理选择上相似的个体,即暴露组和非暴露组之间具有相近倾向得分的个体。匹配过程可以使用一对一匹配、多对一匹配或者一对多匹配等方进行。 最后,通过匹配后的样本,比较处理组和对照组的平均效应差异,从而估计因果效应。常用的比较方包括t检验、McNemar检验、回归分析等。 PSM倾向得分匹配的优势在于可以通过匹配的方式减轻选择偏倚的影响,从而得到更接近真实因果效应的估计。该方在医学、经济、教育等领域都有广泛的应用。但是,PSM也存在一些限制,如匹配精度的依赖性、缺乏可验证性等。 总的来说,PSM倾向得分匹配通过预测个体的倾向得分以及匹配相似个体的方式,能够帮助研究者更准确地评估处理的因果效应,从而提供可靠的研究结论。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值