社会统计学学习笔记-3：defining variables

本文链接：https://blog.csdn.net/shang_an_la/article/details/128785457

一、收集数据，操作性定义和概念性定义

1.定义

demographic data：人口统计学数据，即给出 subject 的社会特征的背景信息。

working/operational definition：操作性定义，又称操作定义，它定义了我们将如何测量某事物来确定 subject 在某变量上的 score 。

下操作性定义的目的是：能客观准确地测量变量；为他人重复验证提供具体的做法；便于别人和同行之间的学术交流，避免不必要的歧义和争论。[引用自百科]

对于社科研究来说，我们常常关注：

attributes（what we say we are）性质
attitudes（the way we actually feel）态度
behavior（what we actually do）行为

conceptual definition：概念性定义，即对于概念的界定，例如东德西德对 democracy 的定义。

2.易产生误导性操作定义的四种情况：

不恰当的操作定义将会导致不恰当的统计结果，下面介绍四种常见的容易产生误导性操作定义的情况。

（1）Ideological Assumptions：

操作性定义可能会是一个有待商榷的 Ideological Assumptions.

例如，评估人权保护情况，对于重犯死刑的存废就是一个争议性的问题。如果把死刑存废作为一个参考指标，那么由此调查出来的结果也会有争议性。

（2）Situational Factors：

情境因素对于调查对象及其结果同样有影响。

例如，新移民在智力测试里表现较差，很可能是因为测试题目使用的语言不是移民的母语；社会宽松程度和社会情况（紧急状态/非紧急状态）有关。

（3）Key Word Inconsistency:

被试没有理解关键术语/理解有误。

例如，有些自认为是保守主义者的人，却做出自由主义者的选择。

（4）Poor predictability：

一些声称可以预测某事的操作性定义，在预测方面表现不佳。

例如，根据高中升学考试，来预测大一的学术表现。

二、量表设计 index and scale construction

items题目：量表的条目，是量表的组成部分。

index（also called scale）量表：A range of scores，treated as interval or ratio level of measurement，measuring some phenomena.可以理解为量表得分总和。

举个例子，要测量某人的保守程度，问卷中可以放一个李克特量表：

堕胎应该被列为非法行为。
学校教育应该强调家庭价值。
社会福利应当由州政府掌握，而非联邦政府。

如果被试 Bob 对以上三道题都 strongly agreed，那Bob 就更倾向于保守立场。

其中1.2.3.题目就是 items，这个量表就是一个index。

如果我们把每道题都根据算上得分，如：

strongly agree = 20 points
agree =15 points
...strongly disagree = 0 points

则score是可以计算的，注意得分应该是 interval 的（等距间隔）。分数越高越保守。

在设计量表时，还需要注意 reverse 题目。有些被试在作答时盲目勾选（比如全选同意），这样的话，数据可信度就不高，所以为了让他们认真作答，我们需要重新设置一下题目：

堕胎应该被列为非法行为。
学校教育【不】应该强调家庭价值。（reverse）
社会福利应当由州政府掌握，而非联邦政府。

相应的，我们也要注意第2题的分数设置对应反过来。

三、效度 validity

validity 效度：指测量工具或手段能够准确测出所需测量的事物的程度。

效度分析的四种方法：

较为主观的两种类型：表面效度和内容效度。

1.1 Face validity 表面效度

定义：相关人士在主观上认为的测验有效程度。

定义中两个要点：

有相关知识的个体（knowledgeable individuals）+主观看待（subjectively viewed）

例子：

（1）研究US历史的学者A认为，保守程度测试中的第2题有些过时，与保守价值关系不大，拉低了量表的效度。

（2）一次阅读理解力的测试包括许多受试者没有学过的方言词汇，则可认为这次测试缺乏表面效度。表面效度是测试出受试者正常水平的一种保证因素。

1.2 Content validity 内容效度

定义：测验题目对有关内容/行为范围取样的适当性。

要点：覆盖所有与测验目标相关的内容 covers all general accepted meanings of the concept

例子：

（1）在全球化的今天，测验题目应该涵盖对国际关系的态度，加上“提高关税以保护本国经济是合理的”等题目。

（2）如果某一套发音技能测试题仅仅考查发音所必须具备的某些技能，如只考单一音素的发音，而不考查重读、语调或音素在词语中的发音，那么，该测试的内容效度就很低。

较为客观的两种类型：准则效度和结构效度。

1.3 criterion validity 准则效度/效标效度

定义：指量表所得到的数据和其他被选择的变量（准则变量）的值相比是否有意义。

要点：能够预测 be able to predict some criterion external to it

效标定义：

效标指的是衡量测验有效性的外在标准，通常是指我们所要预测的行为。

效标可以是连续变量（如分数），也可以是分类变量（如职业）；可以是现成的指标（如产量、薪水），也可以是人为设计的指标（如课堂测验）；可以是主观评判，也可以是客观测量。

类型：根据搜集效标的时间，准则效度可分为同时效度（concurrent validity）和预测效度（predictive validity）。

（1）同时效度：同时效度的效标资料是与测验分数 同时搜集 的。例如大学入学考试可以用中学成绩作效标。同时效度常用的效标是在校的学业成绩、教师的等级评定、临床检查等。

（2）预测效度：预测效度的效标资料 需要过一段时间才可搜集到 。此种效度对人员的选拔和安置工作非常重要。常用的效标是专业训练的成绩、实际工作的表现等。

例子：用学生的实际高考成绩与模拟高考试题得分之间的相关来检验高考模拟试题的有效性。这里应用的就是效标效度的检测方法，高考就成了模拟考试的效标。

*通常用相关分析or差异显著性检验分析准则效度。

1.4 construct validity 结构效度

定义：指一个测验实际测到所要测量的理论结构和特质的程度，常用于人格测验等心理测验。

要点：理论与实际关联 the ability of the scale to measure variables that are theoretically related to the variables that the scale purports to measure.

例子：例如 MBTI 测试，对于 i人（内向）和 e人（外向）可以用“一个月内和朋友出去玩的次数”“周末喜欢独处还是社交”来评价内向外向。

*通常用因子分析来测量结构效度。

四、信度 reliability

信度定义：指的是采取同样的方法对同一对象重复进行测量时，其所得结果相一致的程度。信度系数愈高即表示该测验的结果愈一致、稳定与可靠。

信度分析的常用方法

1.分半信度 split-half reliability

定义：在测量内部一致性时，将原量表的题目对半分到两个子量表中。通过比较两个子量表的信度，来考察测验的各个题目是否测量了相同的内容或特质。

例子：

在一项对青少年犯罪倾向的调查中，我们将原问卷分为两个子问卷，题目按序号单双数分别搁到子问卷A 和子问卷B 当中，再来比较得分。一个在A问卷得分高（具有犯罪倾向）的被试，在B问卷的得分也应该高，证明测验结果具有一致性，这样的话我们认为这份问卷的信度较好。

*对半分怎么分都行，单双数/前十题后十题/随机数分开...只要确保是数量对半就行。

2.重测信度 test-retest reliability/reliability over time

定义：是对同一组被调查人员采用相同的调查问卷，在不同的时间点先后调查两次，两次调查结果之间的差异程度。【样本相同，问卷相同，只有时间不同】如果差异不大，那么信度较好。

关于误差：

（1）重测信度所考察的误差来源，通常是时间的变化所带来的随机影响，例如：

间隔期内被试本身态度发生改变，从支持到反对sth.

（2）但是有时也和问卷题目的含糊性有关，例如：

问卷题目表述的含糊性，导致被试在第二次阅读时和第一次阅读的理解有偏差。

*注意在考察信度时，最好确保间隔期内没有能够改变被试态度的介入性事件发生。例如名人遇刺很可能使得被试产生从支持持枪到反对持枪的短期情绪改变。

五、总结

好的量表应该具有高信度和高效度。本章主要关注量表设计，如概念性定义、操作性定义，和设计的常见误区；信度和效度的定义与常用分析方法。没有好的设计，即便有好的数据，也难以得出好的统计结果。