社会学概念的量化问题
测量(Measurement)
- 社会科学研究的一个重要议题是:如何将我们对社会现象的理解转化为量化数据。
- 相对于自然科学而言,对社会现象、思想、态度的量化描述显得更具有挑战。
- 我们需要为一些抽象概念开发从测量方法,如社会地位、能力、幸福感、健康、甚至爱情。
社会科学不是科学?
- 社会科学要求,对概念的测量应具有有效性,即效度(validity)。
- 我们需要清楚地描述想要测量什么并可以准确的反映目标概念。
- 它同时需要有可靠性,即信度(reliability)。
- 它需要具有一致性,即测量对象在被再次访问及某一问题时,应各给出同样的答案。
变量的分类
变量(Variable)
- 数据的收集是以变量为载体实现的。
- 变量是指在样本或总体研究对象中取值可以改变的特征。
- 统计方法最核心的应用在于解释异质性(variability)。
- 我们收集数据、构建模型,努力寻找与某一异质性真正相关的因素。
- 在对异质性寻求解释的过程中,我么首先打交道的就是变量(variable)。
- 变量的取值以不同测量尺度(measurement scale)的形式呈现。
定量与定性
- 变量首先分为定量型(quantitative)和定性型(qualitative)两大类。
- 定性型变量也称为分类变量。
- 定量型变量的测量尺度为数据。这种变量的取值实际上是采取了定距尺度的形式,这种尺度的每一间隔都是相等的。
- 定距尺度通常由自然或物理单位作为计量尺度,如“元”、“公斤”等。
定量:连续与离散
- 连续(continuous):在某个区间内,取值不断变化的变量。
- 离散(discrete):变量的可能取值构成的是一个不相连的数字集合。
- 对离散变量的处理应该是灵活的。
- 在实际应用中,因为测量方法的限制,连续和离散的界限有时是模糊的。
- 统计分析时所讲的离散一般是指定量变量只能取到很少的几个值的情况。
定性:定序和名义
- 定序变量(ordinal variable)在社会与行为科学的实际研究中十分常见。
- 典型例子:社会调查中的里克特量表(Likert scale)。
- 相对定序变量,无序变量称为名义变量(nominal variable)。
- 严格来说,定性变量也是离散的。
描述统计方法
描述统计的目标是总结、提炼数据。
制表法
- 频数分布表(frequency distribution table)
频数分布通常是社会学学术研究描述其研究样本特征的最常用方法。
绘图法
- 柱状图(bar chart)
- 饼图(pie chart)
- 点图(dotplot)
- 茎叶图(stemplot)
- 直方图(histogram)
数值法
1、集中趋势的测量(measures of central tendency)
- 均值(mean):数据的中心,数据在这一点达到平衡。易受异常值影响。
- 中位数(median):中位数是将观测值排序后,处于最中间位置的观测值的取值。不易受极值的影响。
2、离散程度的测量(measures of variation)
离散程度测量观测值之间的差异程度。
- 极差(range):最大减去最小观测值。
- 四分位差(interquartile range):去掉了异常值的影响
标准差(standard deviation) :标准差是一组数值自平均值分散开来的程度的一种测量观念。一个较大的标准差,代表大部分的数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。易受异常值影响。计算公式:
标准差的性质:
a、标准差的单位与变量的测量单位一致。
b、标准差本身就是一个单位。它可以作为某种单位,测量某观测值和平均值之间的距离。(即相差了几个标准差)
c、标准差(或方差)等于0,说明数据中观测值没有变化,相当于一个常数。
d、标准差越大,说明数据观测值之间的差异越大,离散程度越大。
3、位置的测量(measures of position)
- 四分位数(quartile)
- 百分位数(percentile)
- 标准记分(standardized scores,z-scores):通常用z-scores表示。因其独立于数据的测量单位,所以经常被用来比较来自于不同分布或不同量级的观测值。z-scores=(观测值-均值)/标准差,表示的是每个观测值与均值之间相差了多少个标准差的距离。