RANDOMIZED RESPONSE: A SURVEY TECHNIQUE FOR ELIMINATING EVASIVE ANSWER BIAS笔记
初学者,很粗略的笔记 欢迎大家指正~
motivation
在做调查时,很多人都可能不会回答真实的答案,我们很难知道这样的做法会造成多大的偏差。随机响应方法可以减少采访者所泄漏的信息。在这一方法中,被采访者并不会直接回答问题,回答的是基于概率的那种问题。 也就是说被采访者回答的是正确答案的概率是小于1的。在这一过程中只有他自己知道这个答案是否是正确的。
how
假设共有两组 A和B 想知道某人是属于哪个组
假设他是A组的可能性是p 是B组的可能性是1-p 询问过程中 被采访者的回答不是他属于哪个组 而是只是回答 当前的这个组是不是他所属于的(用spin指示)
计算过程
条件概率 -> 极大似然值 由此得到估计量后 计算估计量的均值、方差 判断是否无偏
均值的作用是判断是否无偏
在数据量较大的情况下会更好
引用文本
图片:
计算的是条件概率,因为原文中用到了spinner 所以在这里他的意思就是 spinner指向的恰好就是真实的答案
计算得估计量
这里是通过极大似然估计求得吗?
最终求得
需要证明这个估计量是否是无偏估计量 所以计算估计量的期望值是否和变量pai相等 (具体why??)
同时还要计算方差值(这里也没有想明白是为什么)
评价指标:MSE均方误差
最终的实验:在真实的概率值下 Ta和Tb两个组 告诉真实值的概率
概率相同时 两者 bias也相同 回答的概率?估计值中相关的概率值p越大 mse越小
A越小 mse越大。
so这样做实验的原因?
和硬币的关系
之前看过有的笔记中将随机响应用不规则硬币来解释
如果是正面 就回答
反面就抛第二次再回答 以此类推
https://zhuanlan.zhihu.com/p/431118852
这篇文章中说不一定非要抛两次硬币
得出的结论是只要有回答yes的人数和p扰动概率即可得到真实的情况就可以
他的证明方法是
我目前的简单理解就是 计算了条件概率 极大似然估计后 证明是无偏估计
得出只有p和回答yes的人数即可 c是yes的人数
那么是否证明是无偏估计即可呢?