全文阅读:https://www.lianxh.cn/news/4dbc40eb41c3d.html
目录
1. 简介
1.1 为何要使用 weight
在数据分析中有时需要为观测值设置不同的权重,例如以下情形:
- 在抽样过程中,不同子总体里的个体被抽中的概率不同,那么不同样本个体代表的总体数量也不同,需要以权重进行反映。例如,在分层抽样中,按男性/女性分别抽样,男性组个体被抽中的概率是 0.1 ,女性组个体被抽中的概率是 0.05,则一个男性观测值能代表 10 个男性,一个女性观测值能代表 20 个女性;
- 如果我们有的不是个体数据,而是某个组或某个地理区域的数据均值,则该均值的信息含量随着其代表的个体数量增多而更大。例如,10 万人城市的收入均值的信息含量比 1 万人城市的收入均值更大。如果我们能以权重对城市人数进行反映,数据估计将更有效率。