今天的概念们很基础、很有用!分上、下篇
上篇:
- 一、路径分析模型(The Path Analysis Model)
- 二、均值和协方差结构(Mean and Covariance Structures)
- 三、模型辨识和估计(Model Identification and Estimation)—— t规则(t- Rule)、零B规则(Null B Rule)、递归规则(Recursive Rule)、阶条件(Order Condition)、秩条件(Rank Condition)、常识性规则(非正式)(The Common Sense Rule)
下篇:
- 四、评估模型拟合度(Model Fit)—— 卡方Χ2、自由度df、比较拟合指数CFI、塔克-刘易斯指数TLI、近似误差均方根RMSEA、标准化均方根残差值SRMR、赤池信息准则五、AIC、贝叶斯信息准则BIC
- 六、模型比较(Model Comparisons)
- 七、修正模型/模型再明确(Model Respecification)和修正指数(Modification Indices, MIs)
- 测试直接作用和间接作用(Direct and Indirect Effect)
- 八、MLE和路径分析前提假设
- 九、R代码
一、路径分析模型
也被称为联立方程模型(simultaneous equations models)含有观测变量的SEM(SEMs with observed measures)。
- 路径分析模型(path analysis)将多元回归模型(multiple regression)扩展到了
- 由多个自变量的模型(more than one criterion measure)、
- 对有限制的模型的拟合度的整体检验(omnibus tests of fit of restricted models)如当不需要估计模型含有的所有路径时、
- 对直接和间接(/中介)效应的正式测试(formal tests of direct and indirect (or mediated) effects)
- 多个变量之间的反馈循环,如,双向效应(feedback loops among multiple variables,e.g., bi-directional effects)
1. 变量1.1 外生/外源变量(Exogenous variable)/自变量(independent/criterion variable,IV): 由模型以外的因素所决定的变量,无法表示为其他变量的函数;路径图中没有指向它的单项箭头。1.2 内因/内衍/内生变量(Endogenous variable)/因变量(dependent variable,DV): 由模型内因素决定的变量,可以表示为一个或多个其他变量的函数。路径图中,至少有一个指向它的单项箭头。1.3 干扰变量(Disturbance):内生(或因变量)的剩余(或无法解释的)方差“the residual (or unexplained) variance of an endogenous (or dependent) variable”。与预测变量(predictors)无关。
2. 模型类型2.1 递归模型(recursive model)被定义为1.残差间无相关(no correlated residuals),且2. 只有单向影响(only unidirectional effects)的模型。
2.2 非递归模型(non-recursive model)被定义为1.残差间无存在关(correlated residuals),且/或2. 存在反馈回路(feedback loop)如双向影响(bidirectional effects)的模型。
*两种模型的区别不影响我们如何估计或解释这些模型、建立模型结构和识别。
3. 建模六步走
回顾(和回归方程一样的六步骤):模型确定(Specification)——模型识别(Identification)——模型估值(Estimation)——模型评估(Evaluation)——(可能需要)模型再明确(Potential re-specification)——模型解释(Interpretation)。
4. 路径模型的优势
多元回归只有一个内生变量(DV),它对所有的外生变量(IVs)进行回归——对模型没有限制(no restrictions),模型是饱和的(saturated)。路径分析模型则更为复杂,因为它1.可以包含多个内生变量(DVs),2. 可以对模型设限,比如将外生变量和内生变量之间的一个或多个路径固定为零,因此路径模型通常不饱和(not saturated),3.可以包含因果链(causal chains)和反馈循环(feedback loops)。
我们将引入一些新的矩阵来解释路径的这些附加特性。
5. 模型参数
路径方程可以被定义为如下方程:
p:内生变量个数q:外生变量个数yi:p×1 观察到的内生变量个数的向量Xi:q×1 观察到的外生变量个数的向量α:p×1回归方程截距的向量Β:p×p回归方程斜率的矩阵Γ:p×q回归方程斜率的矩阵
Ζ:p×1干扰因素即残差的向量Ψ:p×p干扰因素的协变量矩阵
对于下图的路径模型,
矩阵表达式为:
用矩阵表示:
带入方程(得到“联立方程”):
要更好地识别和估计路径分析模型,我们必须首先理解所观察到的和模型隐含的均值和协方差结构。
二、均值和协方差的结构(Mean and Covariance Structures)
- 与回归模型相似,路径分析模型也包含了x和y的均值、方差和协方差的特定结构(specific structure);反映了一个关于这些变量在群体中如何相互关联的理论假设。
- 对模型隐含的矩结构(moment implied structure)进行研究是模型辨识(identification)和模型估计(estimation)的必要条件。主要关注的是协方差(Covariance),通常没有平均值的结构,但也可以通过多组别模型(Multiple Group Model)和生长曲线模型(Growth Curve Models)来实现。
1. 协方差矩阵(Covariance Matrix)
表示内生变量(因变量)和外生变量(自变量)的联合方差矩阵记作
可以分成:
左上角:内生变量的协方差矩阵
左下=右上’:内生变量和外生变量的协方差矩阵
右下:外生变量的协方差矩阵
和昨儿回归模型不同的是,这个模型由多个y。
2. 联合协方差矩阵(Joint Covariance Matrix)
左上角:内生变量的矩阵
左下:关于内生变量和外生变量的矩阵
右下:外生变量的矩阵
3. 均值向量(Mean Vector)
表示内生变量和外生变量的“联合”均值向量("joint" mean vector)记作:
也可以被分割为:
μy是内生变量的均值向量;μx是外生变量的均值向量。
对于有p个因变量(DVs)和q个自变量(IVs)的模型,我们得到:
4. 隐含的矩阵结构(Model-Implied Moment Structures)
之前,我们将总体协方差定义为Σ和均值向量定义为μ,现在,我们定义路径分析中隐含的平均向量为Σ(θ)和协方差矩阵为μ(θ)。它们代表总体层面的值(at population level)。
5. 潜在协方差矩阵结构 (Model-Implied Covariance Structure)
对于这个由两个外生变量、两个内生变量的模型(这个例子中无需考虑x2-->y2的直接路径),我们得到以下潜在协方差矩阵结构Σ(θ):
(深入/拆解分析)我们可以使用追踪规则(tracing rules)来构建矩阵的每个单元:
第一条路径包含了y2和x1之间的直接路径(x1对y2的直接影响)。
第二条路径包含了y2和x1之间的间接路径(x1通过y1对y2的间接影响)。
第三条路径包含了y2和x1之间的间接路径(x1通过y1和x2对y2的间接影响)。
我们将三项潜在协方差矩阵相加,得到y2和x1间的总的潜在协方差矩阵,即Σ(θ)中的第三行第二列:
同理,计算出 y2和 x2、y1和x1x2的潜在协方差矩阵:
小节&拓展
即使在中等规模的模型中,这个路径追踪过程就已经非常复杂了:单个元素包含10多个项的情况并不少见。不过,依然有方法通过少量的矩阵表达式可以简洁而优雅地描述这些值,详见 Bollen (1989, pp.85-88)。下图为该法简版表达式:
上面这部分属于统计理论,实际操作中,不需要自己去算这些(统计软件在后台自行处理了数据)。看得懂最好,看不懂了解一下也好,对后面模型识别、估计和评估多少有点帮助……但分清变量、模型类型、了解下下统计原理还是有必要的。
三、模型辨识和评估(Model Identification and Estimation)
回顾第一天内容:过度识别(Over-identified):模型包含了冗余信息,需要修改 ——未知参数个数<独立方程式个数(方程式有解,但没有唯一精确解)。
许多路径分析和几乎所有SEM模型存在这个问题。正好识别(Just-identified):观察到的信息 = 所需估计的参数数量 ——未知参数个数=独立方程式个数(方程式有唯一精确解)。
所有多元回归模型都是恰好识别。识别不足(Under-identified):观察到有用信息不足——未知参数个数>独立方程式个数(方程无解)。
大问题!无法得到有效结果,下面讲到的路径追踪规则(path tracing rules)对解决这个问题有用。
1. t法则(The t-rule)
对于有p个内生变量、q个外生变量的模型,均值、方差和协方差的数量为k,公式如下:
k是矩阵中不重复的变量数量、p是因变量(DV)数量、q是自变量(IV)数量。t(自由参数free parameters)的数量要小于k,满足t rule是模型辨识的必要非充分条件!
2. 零B法则(The Null B Rule)
即使在干扰变量(disturbances )互有相关性的情况下,当SEM模型中的内生变量间相互没有影响,即没有任何beta系数的估计(B矩阵为0)时,整个模型可以自动辨识。
这种情况下的SEM模型本质上等于多元回归模型(内生变量间相互独立)。
3. 递归法则(The Recursive Rule)
两个条件:
- 内生变量的回归系数矩阵在矩阵对角线下方三角,即没有回溯关系(no feedback loops) 或 双向影响(bi-directional effects)
- 残差的协方差矩阵必须是对角的,即潜在变量间的残差/预测残差间互相独立没有相关。
满足递归法则是模型辨识的充分不必要条件。
4. 常识性法则(The Common Sense Rule)
讲师自创法则大神专用,用以防止识别不足,根据已知信息来推断结构。
例如下图中,模型蕴含了内生变量之间三种关系,但只有一个观察的协变量。
*当标准化的残差值差距较小时,可以认为是由不可避免的合理的抽样误差(样本不等于总体)导致的;当标准化的残差值差距大于2个单位时,意味着观察到的协方差和模型隐含的协方差差距很大!这意味着模型结构不能很好地再现协方差(再取样一次,同一个模型可能得到很不一样的结果)标准化有两种方式:standardized和normalized。这儿用的是normalized residuals。
(有关调整过的残差值rescaled residuals,可以看 pp. 257-262,Bollen,1989)小节:
从样本参数估计值可以看出结果是否和理论一致;但是,由于没有正式评估模型的整体拟合度,我们无法有把握的说结果验证了理论。
接下来要讲模型拟合度,只有拟合优秀的模型的结果才能作为依据。上面说的观测值和模型预测值间的差异(discrepancies between S andΣ(θ hat))只能看出一些模型存在的问题的端倪,下面的拟合指数更具有参考价值。
前一天半都偏重统计理论,后面终于要讲一些比较实践性的理论了。