授课内容来自微信@Psych统计自习室,个人学习笔记存档
-
概念
- 网络分析Network analysis
- 将某一系统内的内部特征将网络的形式呈现。
- 也称:心理测量网络(psychometric network)、症状网络(symptom network)、特质网络(trait network)
- 主要由节点Node(代表变量) & 边线edge(代表变量间的信息)组成的模型
-
节点
- 中心性是用来评估节点在网络结构中的核心程度的量化指标。
- 中心性指标
- 强度strength:与其他节点直接相连的加权值(绝对值)的总和。
- 紧密度/接近度closeness:与其他所有节点的平均距离。例如中心节点平均距离短。
- 中介度betweenness:被两个节点之间最短距离经过的次数。越多紧密度越高。
- 预期影响expected influence:与其他节点直接相连的加权值(有正有负)的总和。
-
边线
- 表示节点之间存在的关系。
- 边线特征:
- 权重weight:网络中边线所连接节点之间关系的密切程度。边线越粗,关系越紧密。
- 符号sign:节点之间关系的性质。边线的颜色,绿or蓝表示正向关系,红色表示负向关系。
- 指向性direction:边线是否具有因果关系的指标。指向节点为原因,被指向节点为结果。
-
提出与发展
-
以往解释模型的局限性?
1. 时间问题。
- 原因发生在结果或者产生作用之前,反映性模型和形成性模型难以建构这种前提假设。
2. 解释建构概念与观测变量之间因果关系的不稳定性。
- 网络分析数据驱动,能检测网络的稳定度。
3. 观测变量之间的从属问题。
- 反映性模型假设观测变量之间不存在直接的因果关系,但是实际上往往存在。
-
为什么要进行网络分析?
- 网络分析的起源,社会学之间复杂事物的关系用关联性和网络的形式呈现
- 后被广泛用于文献分析、事故分析……在基础医学(基因组学网络)、心理学领域广泛应用(心理特质网络)
- 用于症状群的分析,例如护理学中癌症干预前后症状群的改变,来看干预哪个节点更好
- 疾病、症状之间的复杂关联,例如焦虑抑郁的共病问题,都有一定的共同成因,症状本身及其治疗的相关因素本来会导致一系列相互影响依存的并发关系
- 网络分析的图论理论
-
网络分析vs传统潜变量
- 潜变量认为抑郁是相同权重下表示疲倦、失眠等外在变量地反映,抑郁作为心理特征是潜在变量
- 网络分析认为抑郁是疲倦、失眠等一系列互相影响的症状构成的网络
-
网络分析理论在精神病理学应用的四个基本原则:
1. 共病性
- 指精神疾病之间会相互影响(例如焦虑和抑郁)。而网络分析可以解释为精神病理学网络中一系列不同成分互相影响的关系,能直观看出哪些症状存在关系。
2. 症状—成分的对应关系
- 精神病理学网络中的成分与过去和现在出现并被诊断的症状是对应的。例如一些症状过去是存在的,但是现在可能没有被诊断,但我们通过网络分析可以对应症状和成分的关系。
3. 直接的因果关系
- 精神病理学的网络互为因果关系,互相影响。症状之间的相互影响是直接的。
4. 网络结构反应精神疾病
- 网络中的部分症状位于更加紧密的位置,为一些精神症状同时出现提供了更多的解释。
-
基础知识
-
网络结构估计
-
不同的矩阵类型:
a. 相关矩阵网络(最基本的一种网络结构)
- 例如我们比较熟悉的皮尔逊相关etc,不具有指向性的加权矩阵的网络结构
- 局限:存在较多的虚假关系,未探测的第三个节点导致的节点之间的虚假联系
b. 偏相关网络(最广泛常用,又称配对马尔可夫随机场PMRF/浓缩图/高斯图论模型)
- 只保留节点之间的直接连接,减少虚假相关
- 是一个无向网络模型。可以根据不同数据类型使用不同的PMRF模型
- 连续型变量——高斯图论模型GGM
- 二分类变量——伊辛模型Ising model
- 包含二者——混合图形模型mixed model
c. glasso网络:
- 目的:获得一个尽可能简洁并可以解释变量之间的协方差的网络结构
- 主要使用技术:LASSO算法:使用正则化控制虚假连接
- 原理:通过强制让回归系数的绝对值之和小于某固定值,也就是强制一些回归系数为0,有效地选择了不包括这些回归系数对应地协变量的更简洁模型
- 设置调谐(调优)参数/惩罚系数λ来控制减少虚假变量的程度
- 适当把握λ的大小(值低时,剔除很少连接,网络中仍存在较多虚假连接;值高时,提出很多连接,网络中真实连接可能被一起剔除)
- 应用范围:
- 单一网络估计
- 比较一组网络估计(例如包含所有连接网络vs全部连接剔除后的网络)
- 选择最佳网络:将拓展贝叶斯信息法则(EBIC)最小化能够较好地发现真实连接的网络模型,特别是本身不存在太多真实连接的网络
- 基于EBIC的LASSO算法是目前研究发现比较具有特异性的算法,能够将虚假连接和真实连接区分,而且不对虚假连接进行估计
- 但是,这种算法具有多变的敏感性,和真实网络结构和样本量有关。例如,当真实网络存在很多连接或者特定某些节点存在很多连接,敏感性会减弱。
- 使用的超参数γ一般设置0.5
-
基本步骤
- 构建EBICglasso网络,计算中心性指标
-
构建EBICglasso网络
-
计算中心性指标
-
估计可预测性
- 可预测性不受样本容量大小的影响
- 社区样本可预测性>临床样本(Haslbeck & Fried,2017)
- 局限:
- 现有研究还不能解决网络中特定单个节点对单个节点的影响程度,网络里可以量化一个节点被其他相邻节点所决定的程度
- 横断数据估计的网络是无方向网络,一个节点的可预测性是通过计算连接到它的所有边线的权重而不考虑边线的方向,因此节点的可预测性往往高估
- 如果存在两个或以上的变量评估的是同一问题,例如对悲观情绪采用不同的问题测量,那么症状网络中两个节点的可预测性就会增加,两个节点之间边线权重也会被高估。这时如果将这两个节点解释为相互决定的关系,就会导致错误的解读结果。
例如:PHQ1比PHQ2的可预测性低,看圆环
-
评估网络的稳定性和准确性
1. 采用non-parametric bootstrapping计算置信区间CI来估计边权的精度
- 基于95%CI的新数据集是通过对数据中的观察值随机重新抽样而创建的(例如袋子有100个球,每次抽60个球抽1000次,就有1000个新数据集)
2. 为了评估网络的稳定性,执行case-dropping bootstrap procedure来计算相关稳定性系数(CS-C)
- 不同:每个新数据集的大小不同,有100个球,每个数据集分别抽100个、90、80、……个球,稳定性会慢慢减少。如下图,灰色线是抽样数据,红色是本来数据,如果完全重合就说明非常稳定。
- CS-C值表明,原始中心性指数(即强度、接近度、中介度)与基于样本子集网络的中心性指数之间的相关性以95%的概率保持在0.7以上时,可以去除的最大样本比例(Epskamp,2018)。
- CS-C应该>0.25,最好>0.5 (Epskamp,2018)。
3. 最后,网络属性的差异评估边线权重、节点强度
- 例如,通过bootstrapped difference tests (Epskamp,2018)。
- 边线:
- 黑色格子越多越好,越多显著说明边线之间的差异性越大
- 节点:
- 是否需要汇报要看文章空间和要求,或者放到supplementary里
-
网络比较(只适用于二分数据和连续数据,不能适用混合模型)
- 应用范围:
- 多个样本(社区样本vs临床样本,中国样本vs外国样本,干预组vs控制组)
- 单一样本不同特征(男性vs女性)
- 通过置换检验比较不同网络结构的不变性
- 例如
-
操作实例