表达式必须包含结构或联合类型_结构方程模型(Structural Equation Model, SEM) 二上-CSDN博客

今天的概念们很基础、很有用！分上、下篇
上篇：

一、路径分析模型（The Path Analysis Model）
二、均值和协方差结构（Mean and Covariance Structures)
三、模型辨识和估计（Model Identification and Estimation）—— t规则（t- Rule）、零B规则（Null B Rule）、递归规则（Recursive Rule）、阶条件（Order Condition）、秩条件（Rank Condition）、常识性规则（非正式）（The Common Sense Rule）

下篇:

四、评估模型拟合度（Model Fit）—— 卡方Χ2、自由度df、比较拟合指数CFI、塔克-刘易斯指数TLI、近似误差均方根RMSEA、标准化均方根残差值SRMR、赤池信息准则五、AIC、贝叶斯信息准则BIC
六、模型比较（Model Comparisons）
七、修正模型/模型再明确（Model Respecification）和修正指数（Modification Indices, MIs）
测试直接作用和间接作用（Direct and Indirect Effect）
八、MLE和路径分析前提假设
九、R代码

一、路径分析模型
也被称为联立方程模型（simultaneous equations models）含有观测变量的SEM（SEMs with observed measures）。

路径分析模型（path analysis)将多元回归模型（multiple regression)扩展到了
由多个自变量的模型（more than one criterion measure）、
对有限制的模型的拟合度的整体检验（omnibus tests of fit of restricted models）如当不需要估计模型含有的所有路径时、
对直接和间接(/中介)效应的正式测试（formal tests of direct and indirect (or mediated) effects）
多个变量之间的反馈循环，如，双向效应（feedback loops among multiple variables，e.g., bi-directional effects）

1. 变量1.1 外生/外源变量（Exogenous variable）/自变量（independent/criterion variable，IV）: 由模型以外的因素所决定的变量，无法表示为其他变量的函数；路径图中没有指向它的单项箭头。1.2 内因/内衍/内生变量（Endogenous variable）/因变量（dependent variable，DV）: 由模型内因素决定的变量，可以表示为一个或多个其他变量的函数。路径图中，至少有一个指向它的单项箭头。1.3 干扰变量（Disturbance）:内生(或因变量)的剩余(或无法解释的)方差“the residual (or unexplained) variance of an endogenous (or dependent) variable”。与预测变量（predictors）无关。
2. 模型类型2.1 递归模型（recursive model）被定义为1.残差间无相关（no correlated residuals），且2. 只有单向影响（only unidirectional effects）的模型。

2.2 非递归模型（non-recursive model）被定义为1.残差间无存在关（correlated residuals），且/或2. 存在反馈回路（feedback loop）如双向影响（bidirectional effects）的模型。

*两种模型的区别不影响我们如何估计或解释这些模型、建立模型结构和识别。
3. 建模六步走
回顾（和回归方程一样的六步骤）：模型确定（Specification）——模型识别（Identification）——模型估值（Estimation）——模型评估（Evaluation）——（可能需要）模型再明确（Potential re-specification）——模型解释（Interpretation）。
4. 路径模型的优势
多元回归只有一个内生变量（DV)，它对所有的外生变量(IVs)进行回归——对模型没有限制（no restrictions），模型是饱和的(saturated)。路径分析模型则更为复杂，因为它1.可以包含多个内生变量（DVs），2. 可以对模型设限，比如将外生变量和内生变量之间的一个或多个路径固定为零，因此路径模型通常不饱和（not saturated），3.可以包含因果链（causal chains）和反馈循环（feedback loops）。
我们将引入一些新的矩阵来解释路径的这些附加特性。
5. 模型参数
路径方程可以被定义为如下方程：

p：内生变量个数q：外生变量个数yi：p×1 观察到的内生变量个数的向量Xi：q×1 观察到的外生变量个数的向量α：p×1回归方程截距的向量Β：p×p回归方程斜率的矩阵Γ：p×q回归方程斜率的矩阵
Ζ：p×1干扰因素即残差的向量Ψ：p×p干扰因素的协变量矩阵
对于下图的路径模型，

矩阵表达式为：

用矩阵表示：

带入方程（得到“联立方程”）：

要更好地识别和估计路径分析模型，我们必须首先理解所观察到的和模型隐含的均值和协方差结构。
二、均值和协方差的结构（Mean and Covariance Structures）

与回归模型相似，路径分析模型也包含了x和y的均值、方差和协方差的特定结构（specific structure）；反映了一个关于这些变量在群体中如何相互关联的理论假设。
对模型隐含的矩结构（moment implied structure）进行研究是模型辨识（identification）和模型估计（estimation）的必要条件。主要关注的是协方差（Covariance），通常没有平均值的结构，但也可以通过多组别模型（Multiple Group Model）和生长曲线模型（Growth Curve Models）来实现。

1. 协方差矩阵（Covariance Matrix）
表示内生变量（因变量）和外生变量（自变量）的联合方差矩阵记作

可以分成：

左上角：内生变量的协方差矩阵
左下=右上’：内生变量和外生变量的协方差矩阵
右下：外生变量的协方差矩阵
和昨儿回归模型不同的是，这个模型由多个y。
2. 联合协方差矩阵（Joint Covariance Matrix）

左上角：内生变量的矩阵
左下：关于内生变量和外生变量的矩阵
右下：外生变量的矩阵
3. 均值向量（Mean Vector）
表示内生变量和外生变量的“联合”均值向量（"joint" mean vector）记作：

也可以被分割为:

μy是内生变量的均值向量；μx是外生变量的均值向量。
对于有p个因变量（DVs）和q个自变量（IVs）的模型，我们得到：

4. 隐含的矩阵结构（Model-Implied Moment Structures）
之前，我们将总体协方差定义为Σ和均值向量定义为μ，现在，我们定义路径分析中隐含的平均向量为Σ（θ）和协方差矩阵为μ（θ）。它们代表总体层面的值（at population level）。
5. 潜在协方差矩阵结构（Model-Implied Covariance Structure）

对于这个由两个外生变量、两个内生变量的模型（这个例子中无需考虑x2-->y2的直接路径），我们得到以下潜在协方差矩阵结构Σ（θ）：

（深入/拆解分析）我们可以使用追踪规则（tracing rules）来构建矩阵的每个单元：
第一条路径包含了y2和x1之间的直接路径（x1对y2的直接影响）。

第二条路径包含了y2和x1之间的间接路径（x1通过y1对y2的间接影响）。

第三条路径包含了y2和x1之间的间接路径（x1通过y1和x2对y2的间接影响）。

我们将三项潜在协方差矩阵相加，得到y2和x1间的总的潜在协方差矩阵，即Σ（θ）中的第三行第二列：

同理，计算出 y2和 x2、y1和x1x2的潜在协方差矩阵：

小节&拓展
即使在中等规模的模型中，这个路径追踪过程就已经非常复杂了：单个元素包含10多个项的情况并不少见。不过，依然有方法通过少量的矩阵表达式可以简洁而优雅地描述这些值，详见 Bollen (1989, pp.85-88)。下图为该法简版表达式：

上面这部分属于统计理论，实际操作中，不需要自己去算这些（统计软件在后台自行处理了数据）。看得懂最好，看不懂了解一下也好，对后面模型识别、估计和评估多少有点帮助……但分清变量、模型类型、了解下下统计原理还是有必要的。
三、模型辨识和评估（Model Identification and Estimation）
回顾第一天内容：过度识别（Over-identified）：模型包含了冗余信息，需要修改 ——未知参数个数<独立方程式个数（方程式有解,但没有唯一精确解）。
许多路径分析和几乎所有SEM模型存在这个问题。正好识别（Just-identified）：观察到的信息 = 所需估计的参数数量 ——未知参数个数=独立方程式个数（方程式有唯一精确解）。
所有多元回归模型都是恰好识别。识别不足（Under-identified）：观察到有用信息不足——未知参数个数>独立方程式个数(方程无解)。
大问题！无法得到有效结果，下面讲到的路径追踪规则（path tracing rules)对解决这个问题有用。
1. t法则（The t-rule）
对于有p个内生变量、q个外生变量的模型，均值、方差和协方差的数量为k，公式如下：

k是矩阵中不重复的变量数量、ｐ是因变量（DV）数量、q是自变量（IV）数量。t（自由参数free parameters）的数量要小于k，满足t rule是模型辨识的必要非充分条件！
2. 零B法则（The Null B Rule）

即使在干扰变量（disturbances ）互有相关性的情况下，当SEM模型中的内生变量间相互没有影响，即没有任何beta系数的估计（B矩阵为0）时，整个模型可以自动辨识。
这种情况下的SEM模型本质上等于多元回归模型（内生变量间相互独立）。
3. 递归法则（The Recursive Rule）
两个条件：

内生变量的回归系数矩阵在矩阵对角线下方三角，即没有回溯关系（no feedback loops）或双向影响（bi-directional effects）
残差的协方差矩阵必须是对角的，即潜在变量间的残差/预测残差间互相独立没有相关。

满足递归法则是模型辨识的充分不必要条件。
4. 常识性法则（The Common Sense Rule）
讲师自创法则大神专用，用以防止识别不足，根据已知信息来推断结构。
例如下图中，模型蕴含了内生变量之间三种关系，但只有一个观察的协变量。

*当标准化的残差值差距较小时，可以认为是由不可避免的合理的抽样误差（样本不等于总体）导致的；当标准化的残差值差距大于2个单位时，意味着观察到的协方差和模型隐含的协方差差距很大！这意味着模型结构不能很好地再现协方差（再取样一次，同一个模型可能得到很不一样的结果）标准化有两种方式：standardized和normalized。这儿用的是normalized residuals。
（有关调整过的残差值rescaled residuals，可以看 pp. 257-262，Bollen，1989）小节：

从样本参数估计值可以看出结果是否和理论一致；但是，由于没有正式评估模型的整体拟合度，我们无法有把握的说结果验证了理论。
接下来要讲模型拟合度，只有拟合优秀的模型的结果才能作为依据。上面说的观测值和模型预测值间的差异（discrepancies between S andΣ（θ hat））只能看出一些模型存在的问题的端倪，下面的拟合指数更具有参考价值。
前一天半都偏重统计理论，后面终于要讲一些比较实践性的理论了。