不想看理论只想要软件操作代码/步骤的请直接转到本文姊妹篇《多层模型如何求ICC?(应用篇)》,应用篇介绍了R、Mplus、SPSS操作指南、也有HLM的资源链接;扫完这篇还有《理论2》等着你。
组内相关系数和多层模型简介
组内相关系数(Intraclass correlation coeffient, ICC)是跨文化研究里绕不过的一个系数。心理学各分支的研究的数据中难免存在嵌套结构:学生—班级—学校(教育心理学);员工—团队—企业(企业心理学);个人—城市—国家(社会心理学);病人—医生—医院(临床心理学);不同时间点的测量 — 个人 — 实验分组……
而在文化心理学中,我们就喜欢研究这些不同层面的交互影响,所以常用多层线性模型(Hierarchical Linear Model,HLM)/多水平模型(Multilevel Model,MLM)/混合效应模型(Mixed Effects Model)【注意不是混合方法(mixed methods)】/随机效应模型(Random Effects Model)/随机系数模型(Random Coefficients Model)/方差成分模型(Variance Components Model)/嵌套数据模型(Nested Data Model)……这段中加粗的文字都指的是同一种模型,对的,这个模型就是有五花八门的名字。
言归正传,适用这个多层模型有啥好处呢:
- 建模有更大的灵活性
- 我们说了,该模型包含了不同层面的不同因素,
- 所以可以分析大的文化背景对个体的影响(contextual effects)。就比如城市的不同经济发展水平可能影响居民的消费行为模式;
- 也可以分析不同层面的因素间的交互影响(cross-level interaction)。比如学校的类型以及老师的教育方式对学生成绩的影响;
- 所以可以检验可多有更意思的研究问题。
2. 一般回归模型都假设自变量间互相独立(assumption of independency),然而多层模型中自变量间可以存在相关性(不再必须互相独立),并且这种相关性可被估测。
3.一般实验设计要求每组样本量相近(balance design)有缺失数据时就比较麻烦要剔除/补上,然而多层模型中每层各组的样本量不必相同,所以有缺失数据就有好了,模型照样运行。
缺点的话就是很可能一不小心把模型搞太复杂了,样本量需求也比较大,然后统计知识可能又不够用了。
多层模型存在的必要性的讨论(例子)
多层模型存在的必要性:可以避免以偏概全、以全概偏。
来用经典的录取率问题讲讲经典的辛普森悖论(Simpson's Paradox):
某年,知乎者也大学的整体录取率为男性44%,女性31%。乍一看,哎呀,这不性别歧视吗,咋能男性录取率比女的高了10%+呢。学校于是积极响应,彻查各系,结果各系主任都觉得无比委屈,明明每个系都是女性录取率高于男性录取率啊。
此例旨在说明站在不同层面分析数据,你得到的结论可能是不同的。
再举个更线性一些的虚构的例子吧。某研究人员想看看喝酒的数量和人们心情(笑容)有啥关系,于是他们去了许多酒吧做研究,记录了人们喝啤酒的数量和笑容的次数。他们分析了收集到的数据:
- 集合所有个人数据进行分析,喝酒数量和笑容负相关——酒喝得越多,笑容越少;笑容越少,酒喝的越多。
- 将酒吧这个分组因素纳入考虑&