最近做一个校园文化建设评价课题,需要用到PLS结构方程模型进行满意度评价,所以对这个周末学习内容做个笔记,方便复习。
文章目录
1 结构方程模型SEM简述
结构方程模型(structure Equation model,简称SEM)是应用线性方程系统表示观测变量与潜变量,以及潜变量之间关系的一种统计方法。其本质是一种广义的一般线性模型
SEM结合了因子分析与路径分析两大统计分析技术,利用因子分析有效解决了理论变量的测量问题,利用路径分析验证并探索理论变量之间的关系结构。
结构方程模型是基于变量的方差-协方差矩阵来分析变量之间关系的一种多元统计方法,因此又称为协方差结构分析。
SEM模型最大的突破在于潜变量概念的引入,现实的社会经济生活中有许多变量是无法用具体指标测度的,例如:社会威望、学习风气、城市综合实力、顾客忠诚度、地下经济等,通过引入潜在变量可以将无法观测的变量具体化,以便更清楚地了解客观现实,对社会经济现象进行深层次分析。
(引用自:基于结构方程模型的城市竞争力评价)
1.1 SEM优点与局限性
优点
- 同时处理多个因变量;
- 容许自变量和因变量含有误差,精确估计观测变量与潜变量之间的关系;
- 同时估计因子结构和因子关系;
- 可以估计整个模型和数据的拟合程度。
局限性
- 无法处理因变量(Y)多于一个的情况;
- 无法处理自变量(X)之间的多重共线性;
- 无法对一些不可直接测量的变量进行处理,主要是一些主观性较强的变量进行测量,如感知质量、感知价值等;
- 没有考虑变量(自变量、因变量)的测量误差,以及测量误差之间的关系。
1.2 SEM中的相关概念
潜变量(Latent Variable):不可直接观测或测量的变量,或是不能直接收集到数据的变量,通常是较为抽象的概念,例如前面提到的服务质量、满意度、忠诚度、信任度等等。
其分为内生潜变量(endogenous variable)和外生潜变量(exogenous variable).
- 内生潜变量:是指受其他潜变量影响的潜变量,也被叫做因变量
- 外生潜变量:是指不受其他任何一个变量的影响但影响其他变量的潜变量或由系统外其他因素决定的潜变量,也被叫做自变量
显变量(观测变量)(Observed Variables):可直接观测的变量
- 外生显变量是反映外生潜变量的指标,或间接测量外生潜变量的指标
- 内生显变量是反映内生潜变量的指标,或间接测量内生潜变量的指标
一个潜变量往往对应着若干显变量(观测变量),潜变量可以看作是其对应显变量的抽象和概括,显变量可视为特定潜变量的反映指标。
误差变量:误差变量是不具有实际测量的变量,但必不可少。在调查中,显变量不可能百分之百的解释潜变量,总会存在误差,这反映在结构方程模型中就是误差变量,每一个显变量都会有误差变量。在Amos中,误差变量使用圆形进行表示(与潜变量类似)
控制变量:摘自百度百科
控制变量在进行科学实验的概念,是指那些除了实验因素(自变量)以外的所有影响实验结果的变量,这些变量不是本实验所要研究的变量,所以又称无关变量、无关因子、非实验因素或非实验因子。
只有将自变量以外一切能引起因变量变化的变量控制好,才能弄清实验中的因果关系。控制变量衍生到生活中的作用是控制一定影响因素从而得到真实的结果。
中介变量(Mediator)(中介效应):考虑自变量X对因变量Y的影响,如果X通过影响变量M来影响Y,则称M为中介变量;
图片来源:网络
例如
图片来自:Credamo「见数」一文带你理解中介效应
中介效应检验流程
调节变量(Moderator)(调节效应):
参考论文:调节效应与中介效应的比较和应用
如果变量Y与变量X的关系是变量M的函数,称M为调节变量。就是说, Y与X的关系受到第三个变量M的影响,这种有调节变量的模型一般地可以用下图示意。
调节变量可以是定性的(如性别、种族、学校类型等),也可以是定量的(如年龄、受教育年限、刺激次数等),它影响因变量和自变量之间关系的方向(正或负)和强弱。
比如学习方案对学习效果的影响,其中会受到学生个性的影响,一种指导方案对一类学生有效,对另一类学生无效。此时我们就称学生个性是调节变量。
在做调节效应分析时,通常要将自变量和调节变量做中心化变换
调节效应模型:
Y
=
a
X
+
b
M
+
c
X
M
Y=aX+bM+cXM
Y=aX+bM+cXM
可改写为:
Y
=
b
M
+
(
a
+
c
M
)
X
Y=bM+\left( a+cM \right)X
Y=bM+(a+cM)X
对于固定的M,这是 Y 对 X 的直线回归。Y与X的关系由回归系数a+cM来刻画,它是M的线性函数, 衡量了调节效应的大小。
在调节作用中,Y一定是定量数据,而调节变量可以是定性的,也可以是定量的。因此根据自变量和调节变量的数据类型,可以将调节作用分为四种,分别是:
具体操作:如何分析调节作用?
1.3 SEM的构成
结构方程模型由测量模型(Measurement model)和结构模型(structure model)组成。
测量模型也称为验证性因子分析模型,反映了因子(潜变量)与其测量指标(显变量)之间的关系。一般情况下,测量模型包含两个方程,分别为:外生潜变量与外生显变量组成的模型、内生潜变量与内生显变量组成的模型,模型形式为
∣ X = Λ x ξ + δ Y = Λ y η + ε \left| \begin{array}{l} X=\varLambda _x\xi +\delta\\ \\ Y=\varLambda _y\eta +\varepsilon\\ \end{array} \right. ∣∣∣∣∣∣X=Λxξ+δY=Λyη+ε
其中,
- X X X 为外生显变量向量;
- ξ \xi ξ 为外生潜变量向量;
- Y Y Y 为内生显变量向量;
- η \eta η 为内生潜变量向量;
- Λ x 、 Λ y \varLambda _x\text{、}\varLambda _y Λx、Λy 为因子载荷矩阵,其中, Λ x \varLambda _x Λx 反映外生指标与外生潜变量的关系, Λ y \varLambda _y Λy 反映内生显变量与内生潜变量之间的关系;
- δ 、 ε \delta \text{、}\varepsilon δ、ε 为模型误差。
结构模型反映潜变量间的关系,其规定了所研究的系统中假设的外生潜变量和内生潜变量之间的因果关系,其模型形式如下:
η = B η + Γ ξ + ζ \eta =B\eta +\varGamma \xi +\zeta η=Bη+Γξ+ζ
其中,
- B B B 为内生潜变量关系系数矩阵,反映内生潜变量之间的关系;
- Γ \varGamma Γ 为外生潜变量对内生潜变量的影响系数矩阵;
- ζ \zeta ζ 为结构方程的残差项,反映了在方程中未能被解释的部分。
潜变量间的关系,即结构模型,是研究的兴趣重点,所以整个分析也称结构方程模型。
图片来源:结构方程模型简介及其旅游学领域的应用
在SEM中用直观的图形表达各变量之间的关系,这种图形称为路径系数图。
-
椭圆形表示潜变量
- 绿色椭圆形代表外生潜变量;
- 黄色椭圆形代表内生潜变量;
-
长方形代表观测指标
- 灰色长方形代表外生观测指标;
- 亮蓝色长方形代表内生观测指标;
-
单向箭头表示单向影响或效应潜变量之间;潜变量与观测指标之间;
-
单向箭头且无起始图形表示测量误差或未被解释部分
-
双向弧形箭头表示相关关系
- 潜变量之间;
- 观测指标之间
1.4 SEM拟合度指标
拟合度指标是假设的理论植型与实际数据的一致性程度,模型拟合度越高,代表理论模型与实际数据的吻合程度越高。
- X 2 X^2 X2 拟合优度检验: X 2 X^2 X2 值越小,说明实际矩阵和输入矩阵的差异越小,说明假设模型和样本数据之间拟合程度越好。
- 拟合优度指数(GFI)和调整的拟合优度指数(AGFI):反映了假设模型能够解释的协方差的比例,拟合优度指数越大,说明自变量对因变量的解释程度越高,自变量引起的变动占总变动的百分比越高。
- 残差均方根(RMR)和近似误差均方根(RMSEA):残差均方根和近似误差均方根是测量输入矩阵和估计矩阵之间残差均值的平方根,数值越小则说明模型拟合程度越佳。
- 规范拟合指数(NFI)和增量拟合指数(IFI):规范拟合指数是测量独立模型与假设模型之间卡方值的缩小比例。但其与卡方指数一样,容易收到样本容量的影响,为弥补其缺点,学者建议采用增量拟合指数来衡量模型优度。
- 比较拟合指数(CFI):比较拟合指数反映了独立模型与假设模型之间的差异程度,数值越接近1,则假设模型越好。
SEM拟合指标建议值
更详细的拟合指标如下:
来自:SEM各拟合指数一览
1.5 SEM建模步骤
- 概念模型设定
- 研究假设
- 变量的测量
- 数据初步处理:描述性统计指标
- 信度和效度检验:α 系数、EFA和CFA
- 模型估计
- 模型评价
- 模型修正
- 假设检验: 潜变量假设检验、中介变量假设检验、调节变量假设检验
1.6 补充(重点)
案例分析:结构方程模型入门(纯干货!)
怎么用SPSSAU操作:简单易懂,结构方程模型思路总结
2. PLS结构方程模型
参考:满意度测评中结构方程模型的类型选择——构成型模型与反映型模型的选择探讨
PLS是一种新型的多元数据分析方法,集多个因变量对多个自变量的路径建模、典型相关分析以及主成分分析为一体,在一次计算之后,可以同时实现预测建模、两组变量间的相关分析以及对多变量系统的综合简化。
PLS分析的主要目的是建立多个因变量与多个自变量之间的回归模型,特别是在自变量集合或在因变量集合中存在严重的多重共线性时更为适用。
PLS算法对数据的分布没有要求,与其他方法相比,计算结果更为可靠和稳定。目前主要发达国家的国家满意指数以及中国的国家满意指数均采用此方法。
LISREL、AMOS与PLS的最大区别在于算法上的区别。如果研究样本比较大,那么使用LISREL或AMOS比较好,如果研究样本比较小,如果小于200,甚至小于100,则应该使用PLS