孟德尔随机化

JasonKQLin

已于 2024-12-13 23:49:59 修改

阅读量839

点赞数 6

分类专栏：生物信息统计文章标签： big data

于 2024-10-07 16:42:54 首次发布

本文链接：https://blog.csdn.net/linkequa/article/details/142740965

版权

统计同时被 2 个专栏收录

42 篇文章

订阅专栏

生物信息

29 篇文章

订阅专栏

从医学统计学关联到因果关系

在这里插入图片描述

随机对照实验是医学研究的金标准，但是开展难度较大。孟德尔遗传的证据等级介于队列研究和随机对照研究之间。

在这里插入图片描述

![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/a27c64c4e0a647bc95f61843e67a85cf.png

孟德尔随机化的原理：用基因型（SNP）作为工具变量，来研究中间表型和疾病之间的关联性。

在这里插入图片描述

孟德尔随机化例子

基因型SLC2A9与尿酸有关（基于文献），同时SLC2A9也与缺血性心脏病无关。该基因型与年龄、性别等混杂因素无关。借助这个模型就可以研究尿酸与缺血性心脏病的关系。
在这里插入图片描述

孟德尔随机化的步骤为：

①找工具变量，从其他研究中挑选特定基因作为工具变量，从基因库中挑选需要的和暴露相关的基因变量SNPs。
②估计工具变量对结局的作用，工具变量对结局的作用也是从所有的研究中估计出来的整体效应，这样可以拒绝单个研究的偏倚。
③合并多个SNP的效应量，效应量是得到暴露和结局因果效应的前提。
④用合并后的数据进行孟德尔随机化分析和相应的敏感性分析。

孟德尔随机化的统计方法包括：

①逆方差加权法（inverse variance weighted.Ivw）：IVW是MR在分析多个SNP时对多个位点效应进行Meta汇总的方法。IVW的应用前提是所有的SNP均为有效的工具变量且相互之间完全独立。
②加权中位数估计（Weighted median,WM）：WM为所有的个体SNP效应值按照权重排序后得到的分布函数的中位数。当至少50%的信息来自于有效的工具变量时，WM可得到稳健的估计值。
③MR-Egger法：MR-Egger不强制回归直线通过原点，允许纳入的工具变量存在定向的基因多效性。当回归截距不为零且P for intercept <0.05时表明基因多效性的存在。
④MR-PRESSO法：可以通过排除异常值（outliers）排除特定的SNP以获得更加接近真实值的估计值。

例子

研究肥胖和二型糖尿病的直接因果关系遇到如下挑战：1），高血压和高血脂等因素与肥胖、二型糖尿病都有关系，肥胖可能是通过高血压和高血脂等因素去导致二型糖尿病，而本身与二型糖尿病没有直接关系；2），现有数据只能表明肥胖和二型糖尿病有强相关性，无法证明是肥胖引起了二型糖尿病，还是二型糖尿病引起了肥胖。

孟德尔随机化的解决方案是：找出与肥胖强相关的SNP位点（扮演着肥胖的代理人的角色），根据这些SNP位点对二型糖尿病患者进行分组（有该等位基因vs.无该等位基因），这样就可以认为是随机分组（因为非同源染色体上的非姐妹染色单体交叉互换是随机的），并且这样的分组排除了混杂因素的干扰（因为这些SNP位点与混杂因素无关）。

如果直接根据肥胖与否进行分组的话就有下面的问题：1），高血压和高血脂等因素与肥胖有关，在分组的时候要考虑这些混杂因素；2），肥胖组中可能有二型糖尿病导致的肥胖患者（因果关系比较难说清楚）。

在这里插入图片描述

官网分析流程

在这里插入图片描述

Reference

https://www.sohu.com/a/666661861_121118947
https://gwaslab.org/2021/06/24/mr/
https://blog.csdn.net/weixin_43843918/article/details/136063754
https://blog.csdn.net/weixin_43843918/article/details/137787561