![fe5378e14746f3a748a7e382d12cd98f.png](https://i-blog.csdnimg.cn/blog_migrate/a21d528fe939e7b22774fc86382611a9.jpeg)
今天的概念们很基础、很有用!分上、下篇
上篇:
- 一、路径分析模型(The Path Analysis Model)
- 二、均值和协方差结构(Mean and Covariance Structures)
- 三、模型辨识和估计(Model Identification and Estimation)—— t规则(t- Rule)、零B规则(Null B Rule)、递归规则(Recursive Rule)、阶条件(Order Condition)、秩条件(Rank Condition)、常识性规则(非正式)(The Common Sense Rule)
下篇:
- 四、评估模型拟合度(Model Fit)—— 卡方Χ2、自由度df、比较拟合指数CFI、塔克-刘易斯指数TLI、近似误差均方根RMSEA、标准化均方根残差值SRMR、赤池信息准则五、AIC、贝叶斯信息准则BIC
- 六、模型比较(Model Comparisons)
- 七、修正模型/模型再明确(Model Respecification)和修正指数(Modification Indices, MIs)
- 测试直接作用和间接作用(Direct and Indirect Effect)
- 八、MLE和路径分析前提假设
- 九、R代码
一、路径分析模型
也被称为联立方程模型(simultaneous equations models)含有观测变量的SEM(SEMs with observed measures)。
- 路径分析模型(path analysis)将多元回归模型(multiple regression)扩展到了
- 由多个自变量的模型(more than one criterion measure)、
- 对有限制的模型的拟合度的整体检验(omnibus tests of fit of restricted models)如当不需要估计模型含有的所有路径时、
- 对直接和间接(/中介)效应的正式测试(formal tests of direct and indirect (or mediated) effects)
- 多个变量之间的反馈循环,如,双向效应(feedback loops among multiple variables,e.g., bi-directional effects)
1. 变量1.1 外生/外源变量(Exogenous variable)/自变量(independent/criterion variable,IV): 由模型以外的因素所决定的变量,无法表示为其他变量的函数;路径图中没有指向它的单项箭头。1.2 内因/内衍/内生变量(Endogenous variable)/因变量(dependent variable,DV): 由模型内因素决定的变量,可以表示为一个或多个其他变量的函数。路径图中,至少有一个指向它的单项箭头。1.3 干扰变量(Disturbance):内生(或因变量)的剩余(或无法解释的)方差“the residual (or unexplained) variance of an endogenous (or dependent) variable”。与预测变量(predictors)无关。
2. 模型类型2.1 递归模型(recursive model)被定义为1.残差间无相关(no correlated residuals),且2. 只有单向影响(only unidirectional effects)的模型。
![3b5caa7549075732755f684351411e8c.png](https://i-blog.csdnimg.cn/blog_migrate/c6deac67318f1b930c06124d49582d7d.png)
2.2 非递归模型(non-recursive model)被定义为1.残差间无存在关(correlated residuals),且/或2. 存在反馈回路(feedback loop)如双向影响(bidirectional effects)的模型。
![d263bbde0ead9b111f4d5f4581b2ec0b.png](https://i-blog.csdnimg.cn/blog_migrate/22aead9822b976c6d1e3dda59add0bf3.png)
![6cd90233ffafdfbdf6dabe6f6e47c17e.png](https://i-blog.csdnimg.cn/blog_migrate/e7f09cc7247f6f508438fadcb5753b35.png)
![59a0b2e6e65f32c8bd3d7c50f8a29d8b.png](https://i-blog.csdnimg.cn/blog_migrate/732ee12d04afc0be15f96386b3a5bb30.png)
*两种模型的区别不影响我们如何估计或解释这些模型、建立模型结构和识别。
3. 建模六步走
回顾(和回归方程一样的六步骤):模型确定(Specification)——模型识别(Identification)——模型估值(Estimation)——模型评估(Evaluation)——(可能需要)模型再明确(Potential re-specification)——模型解释(Interpretation)。
4. 路径模型的优势
多元回归只有一个内生变量(DV),它对所有的外生变量(IVs)进行回归——对模型没有限制(no restrictions),模型是饱和的(saturated)。路径分析模型则更为复杂,因为它1.可以包含多个内生变量(DVs),2. 可以对模型设限,比如将外生变量和内生变量之间的一个或多个路径固定为零,因此路径模型通常不饱和(not saturated),3.可以包含因果链(causal chains)和反馈循环(feedback loops)。
我们将引入一些新的矩阵来解释路径的这些附加特性。
5. 模型参数
路径方程可以被定义为如下方程:
![371dadcc807afa4a885ebf7e79ad6641.png](https://i-blog.csdnimg.cn/blog_migrate/ea3ba63448b324c9baf40e316944eb89.png)
![55ace4d10cb59ecd555f67d10878b4d6.png](https://i-blog.csdnimg.cn/blog_migrate/f92555db27d62dd43f325951c4e26c50.png)
p:内生变量个数q:外生变量个数yi:p×1 观察到的内生变量个数的向量Xi:q×1 观察到的外生变量个数的向量α:p×1回归方程截距的向量Β:p×p回归方程斜率的矩阵Γ:p×q回归方程斜率的矩阵
Ζ:p×1干扰因素即残差的向量Ψ:p×p干扰因素的协变量矩阵
对于下图的路径模型,
![750a1c34a4a0da67be73d703758a83b2.png](https://i-blog.csdnimg.cn/blog_migrate/da8a2da6a1e6cae4d9eeb3f3bcc373c6.png)
矩阵表达式为:
![e92ebbe357ae8717844a92c2b45cb238.png](https://i-blog.csdnimg.cn/blog_migrate/d4e5eb30b28e393d319c95e1b7b488b6.png)
用矩阵表示:
![8f0fa9d7d48ff1662cf25bd6b57a4705.png](https://i-blog.csdnimg.cn/blog_migrate/0f0c5e1d14b582052cb15934a1592aaa.png)
带入方程(得到“联立方程”):
![a0faaf66e08021a16c0120f1aeb15aa5.png](https://i-blog.csdnimg.cn/blog_migrate/e4fa969db97db27f3cae7f22ef55b71c.png)
要更好地识别和估计路径分析模型,我们必须首先理解所观察到的和模型隐含的均值和协方差结构。
二、均值和协方差的结构(Mean and Covariance Structures)
- 与回归模型相似,路径分析模型也包含了x和y的均值、方差和协方差的特定结构(specific structure);反映了一个关于这些变量在群体中如何相互关联的理论假设。
- 对模型隐含的矩结构(moment implied structure)进行研究是模型辨识(identification)和模型估计(estimation)的必要条件。主要关注的是协方差(Covariance),通常没有平均值的结构,但也可以通过多组别模型(Multiple Group Model)和生长曲线模型(Growth Curve Models)来实现。
1. 协方差矩阵(Covariance Matrix)
表示内生变量(因变量)和外生变量(自变量)的联合方差矩阵记作
![c32bec1f76d56493c7faa23ee80d912b.png](https://i-blog.csdnimg.cn/blog_migrate/e1f28fe28608aad34a8eee861ffe4028.png)
可以分成:
![d15ce047c4bc442366db004ab6b22929.png](https://i-blog.csdnimg.cn/blog_migrate/0d7f2585c63d166655ceaa91010cbdb6.png)
左上角:内生变量的协方差矩阵
左下=右上’:内生变量和外生变量的协方差矩阵
右下:外生变量的协方差矩阵
和昨儿回归模型不同的是,这个模型由多个y。
2. 联合协方差矩阵(Joint Covariance Matrix)
![9af93d6f86520ee6d73da1e6073b1beb.png](https://i-blog.csdnimg.cn/blog_migrate/996b1f9e520b9271b98c11071f3bfa69.png)
左上角:内生变量的矩阵
左下:关于内生变量和外生变量的矩阵
右下:外生变量的矩阵
3. 均值向量(Mean Vector)
表示内生变量和外生变量的“联合”均值向量("joint" mean vector)记作:
![0159f21c519ae06307c8b2326e8c119a.png](https://i-blog.csdnimg.cn/blog_migrate/0768603e98529ad1e776cdb0c0bb54ce.png)
也可以被分割为:
![443aee48339093f840b382ab100bc106.png](https://i-blog.csdnimg.cn/blog_migrate/fcbf1282bc992e488645542af29da494.png)
μy是内生变量的均值向量;μx是外生变量的均值向量。
对于有p个因变量(DVs)和q个自变量(IVs)的模型,我们得到:
![5763defaba4ae3966c5940f8ec9aebaf.png](https://i-blog.csdnimg.cn/blog_migrate/6b9ed532b8186d02b4e3254edfba2c1c.png)
4. 隐含的矩阵结构(Model-Implied Moment Structures)
之前,我们将总体协方差定义为Σ和均值向量定义为μ,现在,我们定义路径分析中隐含的平均向量为Σ(θ)和协方差矩阵为μ(θ)。它们代表总体层面的值(at population level)。
5. 潜在协方差矩阵结构 (Model-Implied Covariance Structure)
![d8847dfd122ad9f6c63eba1ed04ad85c.png](https://i-blog.csdnimg.cn/blog_migrate/3378bc2ce518a1dc49afa1941b1d50af.png)
对于这个由两个外生变量、两个内生变量的模型(这个例子中无需考虑x2-->y2的直接路径),我们得到以下潜在协方差矩阵结构Σ(θ):
![fc4c30d411c641a520e7aa7d0851ab36.png](https://i-blog.csdnimg.cn/blog_migrate/90fa20d3ac8e60ab5880e4cb0fc6739a.png)
(深入/拆解分析)我们可以使用追踪规则(tracing rules)来构建矩阵的每个单元:
第一条路径包含了y2和x1之间的直接路径(x1对y2的直接影响)。
![0c8b2625ceac58137019f1a62127286b.png](https://i-blog.csdnimg.cn/blog_migrate/faa49e05ba63a127f7996bdf6a749a2f.png)
第二条路径包含了y2和x1之间的间接路径(x1通过y1对y2的间接影响)。
![bf4312ccf015f82c23a8eca21d4e9846.png](https://i-blog.csdnimg.cn/blog_migrate/0569c091a6e8ae699f05df42ac5224b0.png)
第三条路径包含了y2和x1之间的间接路径(x1通过y1和x2对y2的间接影响)。
![e9b503f60d507a5a1bad00a41fbf8eed.png](https://i-blog.csdnimg.cn/blog_migrate/fc4a3db62dc5e4952115d2bfbaea0cd3.png)
我们将三项潜在协方差矩阵相加,得到y2和x1间的总的潜在协方差矩阵,即Σ(θ)中的第三行第二列:
![58d7bfcffa31bcac677cd4985f8db414.png](https://i-blog.csdnimg.cn/blog_migrate/89b6e3f77b43e286f64b3ae92b3afa5d.png)
同理,计算出 y2和 x2、y1和x1x2的潜在协方差矩阵:
![44b9023ad4a3e23fbbd46fd69dcc9700.png](https://i-blog.csdnimg.cn/blog_migrate/a3c2538e1a14138ac923c5c2410953bb.png)
小节&拓展
即使在中等规模的模型中,这个路径追踪过程就已经非常复杂了:单个元素包含10多个项的情况并不少见。不过,依然有方法通过少量的矩阵表达式可以简洁而优雅地描述这些值,详见 Bollen (1989, pp.85-88)。下图为该法简版表达式:
![4b6ef99b45b8584c1e781baf9ca65025.png](https://i-blog.csdnimg.cn/blog_migrate/9383e0daf5ee8a4825cc6bc529d8621e.png)
上面这部分属于统计理论,实际操作中,不需要自己去算这些(统计软件在后台自行处理了数据)。看得懂最好,看不懂了解一下也好,对后面模型识别、估计和评估多少有点帮助……但分清变量、模型类型、了解下下统计原理还是有必要的。
三、模型辨识和评估(Model Identification and Estimation)
回顾第一天内容:过度识别(Over-identified):模型包含了冗余信息,需要修改 ——未知参数个数<独立方程式个数(方程式有解,但没有唯一精确解)。
许多路径分析和几乎所有SEM模型存在这个问题。正好识别(Just-identified):观察到的信息 = 所需估计的参数数量 ——未知参数个数=独立方程式个数(方程式有唯一精确解)。
所有多元回归模型都是恰好识别。识别不足(Under-identified):观察到有用信息不足——未知参数个数>独立方程式个数(方程无解)。
大问题!无法得到有效结果,下面讲到的路径追踪规则(path tracing rules)对解决这个问题有用。
1. t法则(The t-rule)
对于有p个内生变量、q个外生变量的模型,均值、方差和协方差的数量为k,公式如下:
![7dd90bb8c7edf74e6dea8a2a3ccca6c5.png](https://i-blog.csdnimg.cn/blog_migrate/70703e1d4d410d76ae1830cd29fc8219.png)
k是矩阵中不重复的变量数量、p是因变量(DV)数量、q是自变量(IV)数量。t(自由参数free parameters)的数量要小于k,满足t rule是模型辨识的必要非充分条件!
2. 零B法则(The Null B Rule)
![06ae4429571d6f1dacd39e170c33eaf9.png](https://i-blog.csdnimg.cn/blog_migrate/b67dd3a15c71ac238e864e017997a002.png)
即使在干扰变量(disturbances )互有相关性的情况下,当SEM模型中的内生变量间相互没有影响,即没有任何beta系数的估计(B矩阵为0)时,整个模型可以自动辨识。
这种情况下的SEM模型本质上等于多元回归模型(内生变量间相互独立)。
3. 递归法则(The Recursive Rule)
两个条件:
- 内生变量的回归系数矩阵在矩阵对角线下方三角,即没有回溯关系(no feedback loops) 或 双向影响(bi-directional effects)
- 残差的协方差矩阵必须是对角的,即潜在变量间的残差/预测残差间互相独立没有相关。
满足递归法则是模型辨识的充分不必要条件。
4. 常识性法则(The Common Sense Rule)
讲师自创法则大神专用,用以防止识别不足,根据已知信息来推断结构。
例如下图中,模型蕴含了内生变量之间三种关系,但只有一个观察的协变量。
![b59fcc9633e0eb7864d4a48539f94ac9.png](https://i-blog.csdnimg.cn/blog_migrate/481334b62b63589276cff4fec76e0df9.png)
*当标准化的残差值差距较小时,可以认为是由不可避免的合理的抽样误差(样本不等于总体)导致的;当标准化的残差值差距大于2个单位时,意味着观察到的协方差和模型隐含的协方差差距很大!这意味着模型结构不能很好地再现协方差(再取样一次,同一个模型可能得到很不一样的结果)标准化有两种方式:standardized和normalized。这儿用的是normalized residuals。
(有关调整过的残差值rescaled residuals,可以看 pp. 257-262,Bollen,1989)小节:
![49cd5aee4f7474369f35be28ea442ed4.png](https://i-blog.csdnimg.cn/blog_migrate/9bf1c3933e2a2fa7fe7d9b238bf30df3.jpeg)
从样本参数估计值可以看出结果是否和理论一致;但是,由于没有正式评估模型的整体拟合度,我们无法有把握的说结果验证了理论。
接下来要讲模型拟合度,只有拟合优秀的模型的结果才能作为依据。上面说的观测值和模型预测值间的差异(discrepancies between S andΣ(θ hat))只能看出一些模型存在的问题的端倪,下面的拟合指数更具有参考价值。
前一天半都偏重统计理论,后面终于要讲一些比较实践性的理论了。