表达式必须包含结构或联合类型_结构方程模型(Structural Equation Model, SEM) 二上

fe5378e14746f3a748a7e382d12cd98f.png

今天的概念们很基础、很有用!分上、下篇
上篇:

  • 一、路径分析模型(The Path Analysis Model)
  • 二、均值和协方差结构(Mean and Covariance Structures)
  • 三、模型辨识和估计(Model Identification and Estimation)—— t规则(t- Rule)、零B规则(Null B Rule)、递归规则(Recursive Rule)、阶条件(Order Condition)、秩条件(Rank Condition)、常识性规则(非正式)(The Common Sense Rule)

下篇:

  • 四、评估模型拟合度(Model Fit)—— 卡方Χ2、自由度df、比较拟合指数CFI、塔克-刘易斯指数TLI、近似误差均方根RMSEA、标准化均方根残差值SRMR、赤池信息准则五、AIC、贝叶斯信息准则BIC
  • 六、模型比较(Model Comparisons)
  • 七、修正模型/模型再明确(Model Respecification)和修正指数(Modification Indices, MIs)
  • 测试直接作用和间接作用(Direct and Indirect Effect)
  • 八、MLE和路径分析前提假设
  • 九、R代码

一、路径分析模型
也被称为联立方程模型(simultaneous equations models)含有观测变量的SEM(SEMs with observed measures)。

  • 路径分析模型(path analysis)将多元回归模型(multiple regression)扩展到了
  • 由多个自变量的模型(more than one criterion measure)、
  • 对有限制的模型的拟合度的整体检验(omnibus tests of fit of restricted models)如当不需要估计模型含有的所有路径时、
  • 对直接和间接(/中介)效应的正式测试(formal tests of direct and indirect (or mediated) effects)
  • 多个变量之间的反馈循环,如,双向效应(feedback loops among multiple variables,e.g., bi-directional effects)

1. 变量1.1 外生/外源变量(Exogenous variable)/自变量(independent/criterion variable,IV):模型以外的因素所决定的变量,无法表示为其他变量的函数;路径图中没有指向它的单项箭头。1.2 内因/内衍/内生变量(Endogenous variable)/因变量(dependent variable,DV): 由模型内因素决定的变量,可以表示为一个或多个其他变量的函数。路径图中,至少有一个指向它的单项箭头。1.3 干扰变量(Disturbance):内生(或因变量)的剩余(或无法解释的)方差“the residual (or unexplained) variance of an endogenous (or dependent) variable”。与预测变量(predictors)无关。
2. 模型类型2.1 递归模型(recursive model)被定义为1.残差间无相关(no correlated residuals)且2. 只有单向影响(only unidirectional effects)的模型。

3b5caa7549075732755f684351411e8c.png

2.2 非递归模型(non-recursive model)被定义为1.残差间无存在关(correlated residuals),且/或2. 存在反馈回路(feedback loop)如双向影响(bidirectional effects)的模型。

d263bbde0ead9b111f4d5f4581b2ec0b.png

6cd90233ffafdfbdf6dabe6f6e47c17e.png

59a0b2e6e65f32c8bd3d7c50f8a29d8b.png

*两种模型的区别不影响我们如何估计或解释这些模型、建立模型结构和识别。
3. 建模六步走
回顾(和回归方程一样的六步骤):模型确定(Specification)——模型识别(Identification)——模型估值(Estimation)——模型评估(Evaluation)——(可能需要)模型再明确(Potential re-specification)——模型解释(Interpretation)。
4. 路径模型的优势
多元回归只有一个内生变量(DV),它对所有的外生变量(IVs)进行回归——对模型没有限制(no restrictions),模型是饱和的(saturated)。路径分析模型则更为复杂,因为它1.可以包含多个内生变量(DVs),2. 可以对模型设限,比如将外生变量和内生变量之间的一个或多个路径固定为零,因此路径模型通常不饱和(not saturated),3.可以包含因果链(causal chains)和反馈循环(feedback loops)
我们将引入一些新的矩阵来解释路径的这些附加特性。
5. 模型参数
路径方程可以被定义为如下方程:

371dadcc807afa4a885ebf7e79ad6641.png

55ace4d10cb59ecd555f67d10878b4d6.png

p:内生变量个数q:外生变量个数yi:p×1 观察到的内生变量个数的向量Xiq×1 观察到的外生变量个数的向量αp×1回归方程截距的向量Β:p×p回归方程斜率的矩阵Γ:p×q回归方程斜率的矩阵
Ζ:p×1干扰因素即残差的向量Ψp×p干扰因素的协变量矩阵
对于下图的路径模型,

750a1c34a4a0da67be73d703758a83b2.png

矩阵表达式为:

e92ebbe357ae8717844a92c2b45cb238.png

用矩阵表示:

8f0fa9d7d48ff1662cf25bd6b57a4705.png

带入方程(得到“联立方程”):

a0faaf66e08021a16c0120f1aeb15aa5.png

要更好地识别和估计路径分析模型,我们必须首先理解所观察到的和模型隐含的均值和协方差结构。
二、均值和协方差的结构(Mean and Covariance Structures)

  • 与回归模型相似,路径分析模型也包含了x和y的均值、方差和协方差的特定结构(specific structure);反映了一个关于这些变量在群体中如何相互关联的理论假设。
  • 模型隐含的矩结构(moment implied structure)进行研究是模型辨识(identification)和模型估计(estimation)的必要条件。主要关注的是协方差(Covariance),通常没有平均值的结构,但也可以通过多组别模型(Multiple Group Model)生长曲线模型(Growth Curve Models)来实现。

1. 协方差矩阵(Covariance Matrix)
表示内生变量(因变量)和外生变量(自变量)的联合方差矩阵记作

c32bec1f76d56493c7faa23ee80d912b.png

可以分成:

d15ce047c4bc442366db004ab6b22929.png

左上角:内生变量的协方差矩阵
左下=右上’:内生变量和外生变量的协方差矩阵
右下:外生变量的协方差矩阵
和昨儿回归模型不同的是,这个模型由多个y。
2. 联合协方差矩阵(Joint Covariance Matrix)

9af93d6f86520ee6d73da1e6073b1beb.png

左上角:内生变量的矩阵
左下:关于内生变量和外生变量的矩阵
右下:外生变量的矩阵
3. 均值向量(Mean Vector)
表示内生变量和外生变量的“联合”均值向量("joint" mean vector)记作:

0159f21c519ae06307c8b2326e8c119a.png

也可以被分割为:

443aee48339093f840b382ab100bc106.png

μy是内生变量的均值向量;μx是外生变量的均值向量。
对于有p个因变量(DVs)和q个自变量(IVs)的模型,我们得到:

5763defaba4ae3966c5940f8ec9aebaf.png

4. 隐含的矩阵结构(Model-Implied Moment Structures)
之前,我们将总体协方差定义为Σ均值向量定义为μ,现在,我们定义路径分析中隐含的平均向量Σ(θ)和协方差矩阵μ(θ)。它们代表总体层面的值(at population level)。
5. 潜在协方差矩阵结构 (Model-Implied Covariance Structure)

d8847dfd122ad9f6c63eba1ed04ad85c.png

对于这个由两个外生变量、两个内生变量的模型(这个例子中无需考虑x2-->y2的直接路径),我们得到以下潜在协方差矩阵结构Σ(θ):

fc4c30d411c641a520e7aa7d0851ab36.png

(深入/拆解分析)我们可以使用追踪规则(tracing rules)来构建矩阵的每个单元:
第一条路径包含了y2和x1之间的直接路径(x1对y2的直接影响)。

0c8b2625ceac58137019f1a62127286b.png

第二条路径包含了y2和x1之间的间接路径(x1通过y1对y2的间接影响)。

bf4312ccf015f82c23a8eca21d4e9846.png

第三条路径包含了y2和x1之间的间接路径(x1通过y1和x2对y2的间接影响)。

e9b503f60d507a5a1bad00a41fbf8eed.png

我们将三项潜在协方差矩阵相加,得到y2和x1间的总的潜在协方差矩阵,即Σ(θ)中的第三行第二列:

58d7bfcffa31bcac677cd4985f8db414.png

同理,计算出 y2和 x2、y1和x1x2的潜在协方差矩阵:

44b9023ad4a3e23fbbd46fd69dcc9700.png

小节&拓展
即使在中等规模的模型中,这个路径追踪过程就已经非常复杂了:单个元素包含10多个项的情况并不少见。不过,依然有方法通过少量的矩阵表达式可以简洁而优雅地描述这些值,详见 Bollen (1989, pp.85-88)。下图为该法简版表达式:

4b6ef99b45b8584c1e781baf9ca65025.png

上面这部分属于统计理论,实际操作中,不需要自己去算这些(统计软件在后台自行处理了数据)。看得懂最好,看不懂了解一下也好,对后面模型识别、估计和评估多少有点帮助……但分清变量、模型类型、了解下下统计原理还是有必要的。
三、模型辨识和评估(Model Identification and Estimation)
回顾第一天内容:过度识别(Over-identified):模型包含了冗余信息,需要修改 ——未知参数个数<独立方程式个数(方程式有解,但没有唯一精确解)。
许多路径分析和几乎所有SEM模型存在这个问题。正好识别(Just-identified):观察到的信息 = 所需估计的参数数量 ——未知参数个数=独立方程式个数(方程式有唯一精确解)。
所有多元回归模型都是恰好识别。识别不足(Under-identified):观察到有用信息不足——未知参数个数>独立方程式个数(方程无解)。
大问题!无法得到有效结果,下面讲到的路径追踪规则(path tracing rules)对解决这个问题有用。
1. t法则(The t-rule)
对于有p个内生变量、q个外生变量的模型,均值、方差和协方差的数量为k,公式如下:

7dd90bb8c7edf74e6dea8a2a3ccca6c5.png


k是矩阵中不重复的变量数量、p是因变量(DV)数量、q是自变量(IV)数量。t(自由参数free parameters)的数量要小于k,满足t rule是模型辨识的必要非充分条件!
2. 零B法则(The Null B Rule)

06ae4429571d6f1dacd39e170c33eaf9.png

即使在干扰变量(disturbances )互有相关性的情况下,当SEM模型中的内生变量间相互没有影响即没有任何beta系数的估计(B矩阵为0)时,整个模型可以自动辨识。
这种情况下的SEM模型本质上等于多元回归模型(内生变量间相互独立)。
3. 递归法则(The Recursive Rule)
两个条件:

  1. 内生变量的回归系数矩阵在矩阵对角线下方三角,即没有回溯关系(no feedback loops) 或 双向影响(bi-directional effects)
  2. 残差的协方差矩阵必须是对角的,即潜在变量间的残差/预测残差间互相独立没有相关。

满足递归法则是模型辨识的充分不必要条件
4. 常识性法则(The Common Sense Rule)
讲师自创法则大神专用,用以防止识别不足,根据已知信息来推断结构。
例如下图中,模型蕴含了内生变量之间三种关系,但只有一个观察的协变量。

b59fcc9633e0eb7864d4a48539f94ac9.png

*当标准化的残差值差距较小时,可以认为是由不可避免的合理的抽样误差(样本不等于总体)导致的;当标准化的残差值差距大于2个单位时,意味着观察到的协方差和模型隐含的协方差差距很大!这意味着模型结构不能很好地再现协方差(再取样一次,同一个模型可能得到很不一样的结果)标准化有两种方式:standardized和normalized。这儿用的是normalized residuals。
(有关调整过的残差值rescaled residuals,可以看 pp. 257-262,Bollen,1989)小节:

49cd5aee4f7474369f35be28ea442ed4.png

从样本参数估计值可以看出结果是否和理论一致;但是,由于没有正式评估模型的整体拟合度,我们无法有把握的说结果验证了理论。
接下来要讲模型拟合度,只有拟合优秀的模型的结果才能作为依据。上面说的观测值和模型预测值间的差异(discrepancies between S andΣ(θ hat))只能看出一些模型存在的问题的端倪,下面的拟合指数更具有参考价值。
前一天半都偏重统计理论,后面终于要讲一些比较实践性的理论了。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值