Applying the exposome concept in birth cohort research- a review
类别:统计学习方法 时间:20210630
1.背景
大量可改善的疾病风险因素还缺乏探讨;疾病风险因素间的相关关系及与健康结局的关联还未可知;出生队列研究为探讨生命早期暴露组的研究提供了很好的机遇。
研究目的:提供暴露组分析方法及优缺点,提出关于暴露组研究中的挑战。
2.暴露组学(The Exposome)
概念于2005年提出,三个方面:1)广义外暴露,如大气,城市交通,社会因素,通过地理信息方法评估;2)狭义外暴露,暴露环境污染物,如烟草和饮食,通过问卷及生物监测评估;3)内暴露,如炎症反应,代谢,激素等,通过高通量方法评估。第三种也可反映外暴露的暴露组学。
出生队列:LifeCycle, HELIX, EXPOsOMICS, HEALS, HERCULES, CHEAR. (rexposome package)
3.暴露物选择及预处理(Selecting and pre‑processing exposures)
3.1缺失数据处理
多重填补方法(15-25个预测变量),Rubin‘s rule (旨在汇集参数估计值,例如平均差、回归系数、标准误差,并推导出置信区间和 p 值 ).
3.2低于检出限暴露物质处理
LOD,LOD/2,/LOD/√2替换 (imputeLOD function in rexposome package), 超过80%的数据<LOD时,应该分为检出和未检出。
3.3矫正暴露测量误差
暴露错分,对于重复测量样本可以通过-ICC矫正(Intraclass correlation coefficient),适用于非持久性化学物。
4.描述暴露组学
4.1暴露组相关性结构
同个family的化学物受其他类别化学物的影响较小,关联性结构需要在各个研究中评估。 进行暴露组与健康关联分析前,需要进行暴露组内部关联分析(Heatmap与circos plot, network分析)
4.2暴露组维度
降维分析方法:主成分分析/因子分析,聚类分析。不适用于大批量来源的暴露及多重填补的暴露数据。
4.3暴露组变异性
样本内变异,需收集多时间点样本数据; 样本间变异:受样本收集方式的影响。
5.暴露组决定物的评估
受社会经济的影响。
6.评估暴露组-健康关联
三种方式:变量选择,数据降维,样本聚类
6.1单暴露物方法
EXWAS,Family-wise error rate (FWER),False discovery rate (FDR),Bonferroni procedure。方法使用的前提是化学物各自独立。
可用火山图及曼哈顿图展示结果。
6.2变量选择方法
DSA(Deletion/Substitution/Addition):变量的选择基于交叉验证,最小化平方根误差。优点:高灵敏度,低错误发现率,可探讨交互作用。局限:不支持删失数据,计数数据,不可对因子类型的数据之间的交互作用探讨。HELIX研究中经常使用,
ENET:LASSO回归和Ridge回归的结合,高灵敏度,低错误发现率。
GUESS:贝叶斯的变量选择方法,最早用于基因的探讨。有点与DSA类似。
6.3数据降维模型
PCA,主成分分析
PLS,有参分析,进行与结局变量有关的成分的筛选及降维,但解释性不好,无法调整协变量。
6.4将组学与暴露组整合
组学数据可用于:1)作为结局变量,预测变量;2)暴露变量;3)暴露-健康结局的中间变量。如肠道菌群可介导POPs与哮喘间的中间变量。
7.暴露组研究中的样本量
基于EXWAS,100个暴露物,达到80%的效能,需要1000-2000的样本量。
8.暴露组统计方法中的挑战
化学物之间的交互作用及合成效应;内外暴露的联合及因果关联的分析;尚无统一标准分析暴露组学的纵向研究分析。