这些资料都是临时找来的(http://www.cdadata.com/14633;https://zhuanlan.zhihu.com/p/114303199)感谢这些研究者。我自己稍稍整理了下,分享给大家。
一、简单斜率分析
自变量有两个维度,分别为X1和X2,而调节变量有三个维度,分别为Z1、Z2和Z3。我对其分别进行了中心化之后,获得了六个交互项,分别是X1Z1,X1Z2,X1Z3,X2Z1,X2Z2,X2Z3。此外,我还加入了性别作为控制变量。就这样,完整回归方程如下:
Y=b0+b1*G+b2*X1+b3*X2+b4*Z1+b5*Z2+b6*Z3+b7*X1Z1+b8*X1Z2+b9*X1Z3+b10*X2Z1+b11*X2Z2+b12*X2Z3
分层进入回归方程后,结果表明交互项中X1Z1、X1Z3的系数b7、b9显著(在这里,我们只探讨交互)。发现这两个系数显著后,于是我开始对它们进行简单斜率分析,但是我的一个疑惑产生了,那就是在以往的简单斜率分析文章中(注1),举的例子都是只有3项变量(X、Z、XZ)的回归方程,他们的分析都是建立在那一个交互项显著的情况下。而我的这个方程中却是包含了研究的所有变量,包含不止一个交互项,但是我却只对显著的交互项进行简单斜率分析。所以,我很想知道,我对大方程显著的交互项进行斜率分析与对仅仅包含显著交互项的小方程(如,重新对X1、Z1、X1Z1进行回归得到一些系数)进行斜率分析有差别么?哪样的更合理?
解答:我还是从最简单的X、Z和XZ模型说起,随后扩展到XT问的多个交互项模型问题。大家对最简单的交互模型应该不陌生吧:
Y = b0 + b1X + b2Z +
b3XZ
[1]
为了进一步理解X和Z的“交互影响”,我们可以将Z看着一个常数(如Z的均值),从而对模型1的右边重新组合,得到:
Y = (b0 + b2Z) + (b1+
b3Z)X
[2]
模型2的意义在于它已不再是一个含X和Z两个变量的二元方程,而是一个只含X的一元方程,其截距为b0
+ b2Z,斜率为b1+
b3Z(注意Z是一个任意的常数)。后者就是XT提到的简单斜率,对它的取值范围、正负方向等作分析、尤其是对两个或多个简单斜率(基于不同的Z值,如大于和小于Z均值的一个标准差)之间的比较以及制作相应的XY-散点图,都是很有意义的。
XT的问题是,如果回归模型中含有多个自变量和多个调节变量(这在研究中更现实),如何作简单斜率分析?他/她提到两种可能方案,一是包括所有变量,较复杂;二是只挑出一对显著的交互项,较简单,但是担心其结果是否有问题。确如他/她提到,一般教科书都限于模型2的讨论,所以文献中没有明确答案。我倾向于方案一,虽然繁琐,但是准确。以他/她的模型为例:
Y = b0 + b1G + b2X1 +
b3X2 + b4Z1 + b5Z2 + b6Z3 + b7X1Z1 + b8X1Z2 +b9X1Z3 + b10X2Z1 +
b11X2Z2 + b12X2Z3
[3]
其中b7和b9是显著的。可以作两对简单斜率分析,一是比较Z1的高值(如Z1均值 +
1个标准差,记为“Z1H”)和低值(如Z1均值 –
1个标准差,记为“Z1L”),其它变量(X2、Z2、Z3均取其均值,分别记为“X2M”、“Z2M”、“Z3M”,性别(G)如何处理见下):
Y = (b0 + b1G + b3X2M +
b4Z1H + b5Z2M + b6Z3M + b10X2MZ1H + b11X2MZ2M + b12X2MZ3M ) + (b2 +
b7Z1H + b8Z2M +b9Z3M) X1
[4a]
Y = (b0 + b1G + b3X2M +
b4Z1L + b5Z2M + b6Z3M + b10X2MZ1L + b11X2MZ2M + b12X2MZ3M ) + (b2 +
b7Z1L + b8Z2M +b9Z3M) X1
[4b]
模型4a和4b看上去复杂,但其实均是一元方程而已。同理,比较Z3的高值(“Z3H”)和低值(“Z3L”)时,采取相同方法,得到:
Y = (b0 + b1G + b3X2M +
b4Z1M + b5Z2M + b6Z3H + b10X2MZ1M + b11X2MZ2M + b12X2MZ3H ) + (b2 +
b7Z1M + b8Z2M +b9Z3H) X1
[4a]
Y = (b0 + b1G + b3X2M +
b4Z1M + b5Z2M + b6Z3L + b10X2MZ1M + b11X2MZ2M + b12X2MZ3L ) + (b2 +
b7Z1M + b8Z2M +b9Z3L) X1
[4b]
二、简单斜率图。
简单斜率图就是调节变量取不同数值时的回归直线,但常用的是线段,而不是将整个直线画出。
在自变量、调节变量和因变量都为连续变量时,当调节变量为原始数据时,则取值为:M-SD、M、M+SD;当调节变量为中心化数据时,则取值为:-SD、0、+SD;当调节变量为标准化数据时,则取值为:-1、0、+1。分别称其为调节变量取低、中、高值。当然也可以只取低和高两种取值。
比如我们得到回归方程:
y=23.783+0.150x+0.534m+0.013xm。其中xm是乘积项,其系数为0.013,经检验是显著的。因此调节效应显著,接下来做调节效应图。因数据已经中心化了,所以,求得m的平均数为0,标准差为7.466,因此:
m_low=-7.466, y=19.796+0.053x;
m_mid=0, y=23.783+0.150x;
m_high=7.466, y=27.770+0.247x。
其中,0.053、0.150和0.247就是简单斜率。
这样我们把三条回归直线画到一张图上就行了。为方便画图和解释,这时候一般取x的低值和高值代入回归方程,得到相应的y。x也是中心化后的变量,其平均数为0,标准差为4.093。因此将x_low=-4.093,和x_high=4.093分别代入方程,求出y值。
即:m_low,x_low,y=19.579;
m_low,x_high,y=20.013
m_mid,x_low,y=23.169
m_mid,x_high,y=24.397
m_high,x_low,y=26.759
m_high,x_high,y=28.781
然后根据上面得到的y的数值 ,画入直角坐标系,连成线段即可。
PS:学习方法:高中时学数学平面几何和代数的方法是形象思维法,知识点很快记住,而且很难忘记,例如奇函数和偶函数,而且还会自发的应用到实际的人体体形中;高中英语的学习方法是兴趣导向法,喜欢听英文歌曲,英语磁带也就听的多,结果很多英语句子记得很牢。高中语文学习方法是写日记,反思法;不足之处在于,反思知识点太多而没有建立逻辑图,导致反而没把握好重点。现阶段的学习方法:在应对大量的任务同时,学完新知识和完成新任务后,在某一新任务汇报时,表述自己的观点和理解;或者针对他人的表述,提出自己的观点、理解或问题;这里面包含了学习后的知识迁移。还有就是学业中,遇到不懂的问题,有心人或专业人士会助你,指明方向或者具体告诉你一些方法,然后你需要努力学习,直至解决不懂的问题和掌握新知识。肯钻研问题说明你对知识有兴趣,反思,联系实际,再实践,知识就初步记住、学习和掌握了。