简介
在市场研究、社会研究等数据过程中,都会涉及到数据加权的问题。但具体来说,什么是数据加权呢?
简单来说,就是就是在某些数据上增加或减少权重,让部分样本看起来重要或者不重要,或者让所调研的样本更符合市场现状,尤其是人口现状。这是在市场研究、社会研究、医学研究中经常遇到的事情。
由此来看,数据加权适用于以下几种情况:
情景1:在抽样调查得到的样本结构与总体人口统计结构状况不相符,在数据处理时,可以通过加权来消除/还原这种结构差异,达到纠偏的目的;
例如,在城市和农村各调查300样本,城市与农村人口比例“城市:农村=1:2”(假设),在分析时我们希望将城市和农场看作一个整体,这时候我们就可以赋予农村样本一个2倍于城市样本的权重;
情景2:除了人口统计结构,有时在调查样本的某些变量或指标上样本的代表性可能也会相对总体的实际状况过高/过低,此时,需要加权进行调整;
这类不匹配大多是“故意”而为(通过“追加”样本实现),比如在配额抽样的时候,设置配额要求某类被访者对某产品的使用者必须达到50%,但实际情况是总体市场中实际使用者仅有10%;
有时,则是“非情愿”的出现,比如设置了能反映总体的配额比例,但实际操作却出现了比例偏高/偏低;
情景3:在样本组配额实验设计中,进行不同子总体对比检验,也会通过加权来调整不同组间的样本属性不相匹配的情形(通常设有相同的配额,但执行有可能会出现差异);通常,加权对结果产生的差异很小,更多的是对结果从准确度上进行修饰。
情景4:所测试样本出现了较多的缺失值,需要加权来纠正结果;对于面向特定客户的专项研究,在调查前基本都协议有要完成的样本量,故这种情形较少。
在如此多的情况下,我们应该如何进行加权呢?实际上,也非常简单,公式如下:
设计加权 = 某个变量或指标的期望比例/该变量或指标的实际比例
SPSS实现数据加权
例:针对年龄进行加权,使男:女=1:1。
- 打开 数据,点击 分析—描述—频率,先查看年龄原始分布,具体如下:
- 男、女加权份额计算如下:
- 在SPSS数据中添加一新变量,其中男性赋值为0.703,女鞋赋值为1.730
- 建立好新变量后,我们就可以实施加权了。打开 数据—个案加权,显示如下画面:
- 选择“个案加权系数”,将 w1 选入 频率变量中。点击确定。
- 点击 分析—描述—频率,查看年龄加权后分布,结果如下:
同原始数据相比,仅仅是比例上的变化,数据总量没有变化。至此我们完成了数据的加权。我们可以看下其他变量的比例是否有变化。
从上图我们可看出,各性别上均值没有变化,但总体上却略有不同。