【学习总结】人群队列数据分析

上周学习了刘老师人群队列数据实战的课程,自己受益匪浅,课程主要讲的是大人群队列数据分析的一些背景知识和底层原理,并且使用R语言进行代码实现。
本篇笔记主要是对人群队列数据分析的基础知识和流程进行一个大体的总结回顾,具体的每个单独模块的细节内容和代码,我也都做了笔记,并且整理好了放在个人的Github上,目录如下

【学习笔记整理目录】

【总结】

1. 基础遗传学/统计学知识

在进行人群队列数据分析之前,首先必须了解一些基本的统计和遗传学知识。
统计知识要了解:

  • 常见的概率分布(二项,泊松,正态,均匀,指数,卡方,F分布以及T分布)
  • 要知道假设检验基本原理,会应用T检验,卡方检验。
  • 此外,还要熟练掌握一元线性回归,多元线性回归,logistic回归的原理和应用。

掌握统计知识之外,还需要 了解一些基本的群体遗传学常识 ,包括

  • 群体遗传学的定义和学科目标
  • 常见的遗传学基础名词(例如 Locus, Allele, Genotype 等),了解等位基因和基因型频率的概念,会使用R语言计算等位基因和基因型的频率(有练习题)
  • 哈迪温伯格定律是很重要的遗传知识之一,
    • (1)我们要了解哈迪温伯格平衡定律的定义,等式: p+q=1 & p^2 + q^2 +2pq=1 ,以及实现它所需要满足的条件。
    • (2)哈迪温伯格定律虽然会受到一些影响,但是大多数情况下哈迪文伯格平衡是不受影响的,一个不遵循哈迪温伯格平衡的群体经过一代自由交配后,第二代会变成平衡的(这个是可证明的,用R脚本证明一次);
    • (3) 哈迪温伯格平衡是基因型数据质检的重要标准之一, 所以要学会使用R语言和卡方检验,来编程实现对大样本数据的哈迪温伯格平衡检验
  • 了解连锁不平衡的原理,并且用R语言绘制连锁不平衡图,能解释图的含义
  • 知道遗传力的定义(狭义和广义),了解表型方差的组成( Var(P) = Var(G) + Var(E) + 2 Cov(G,E) ), 并且阐明一些易混淆的遗传力的概念

2. 关联分析

2.1 关联分析基本知识

复习完基础的群体遗传和统计知识,我们就要从关联分析开始,探索SNP等遗传位点和表型的关联性了。
关联分析的目的是 ,检验和识别我们的遗传变异和表型/或疾病状况的相关性,从而找到引起某表型的真正因素,为人类服务。

  • 关联分析中有单个SNP的关联研究(即检验单个SNP和表型的相关性),对于连续的表型,最简单的方法是使用线性回归去检测,离散的表型则用逻辑回归检测;
  • 关联分析中,想探究多个SNP和表型的相关性时,这时最简单的就是用多元线性回归去检测
2.2 全基因关联分析

全基因组关联分析是目前探究遗传变异和表型关联性中用的较多的方法之一,它的目的是在全基因组水平上,看看是否有任何变异位点与某个性状特征相关联。

  • GWAS 简单来说其实就是 关联分析(最简单的情况是用回归来做关联)/假设检验 在全基因组水平上的应用(对每个snp做一次),课程中使用R语言练习了对100个SNP的关联分析。
    • GWAS实施前,需要注意研究的设计,最好是多阶段设计(第一阶段,对所有SNP进行关联分析,找到阳性SNP; 第二阶段,使用另外的样本对第一阶段发现的阳性SNP进行功能验证和解释)。
    • 当GWAS数据得到后,很重要的一步就是质量控制,要注意过滤不满足条件的SNP和样本,要通过统计学的方法去过滤数据(课程里没有详细介绍做GWAS的方法 主要讲的是底层实现理论,想做GWAS的话,需要另外找资料学习)。
    • 得到GWAS结果,要学会用相应的方法去解释,一个就是Manhattan图,展现了全基因组水平SNP的显著情况,另一个重要的图就是QQ图,QQ图可以用来解释数据的群体结构,如果数据结构较差,QQ图就是飘的。在过滤假阳性的SNP时,局部曼哈顿图可以帮助我们仔细探究由连锁不平衡引起的SNP假阳性~
2.3 探究SNP的独立效应十分重要

得到的GWAS结果中可能出现由于强连锁不平衡而引起的SNP假阳性,因此鉴定SNP对某表型是否有独立作用的效应很关键。首先可以用局部Manhattan图,看一下显著的SNP局部的连锁情况, 然后使用 条件分析 方法来判断某SNP是否真的具有独立效应, 课堂上练习了 R语言绘制局部Manhattan图和条件分析的代码实现。


3. Meta分析

很多时候我们单个的GWAS研究结果太少,那么就可以使用 Meta analysis 荟萃分析去整合其它GWAS研究的统计结果(如 Beta,SE,P等值),来补充说明我们自己的研究结论。将多个不同的研究得到的统计值整合的时候,需要一定的计算策略 ,Meta分析的计算模型分为随机效应模型和固定效应模型。 固定效应中的 Inverse variance based approach 比较常用, 上课的时候,老师也带着我们手工实现了对三个GWAS研究结果的简单的Meta 分析


4. 表型预测

通过关联分析得到显著的SNP后,接下来重要的工作就是使用这些结果建立模型,从而来做多基因疾病风险评估或是表型预测(根据已有的SNP建立一个预测表型的模型,然后使用新的SNP输入建立的模型,预测输出的表型情况 )。 建立预测模型的方法有很多: PRS,线性回归 等等,建模之后,需要评估模型预测的准确度,这就涉及立即 MADROCAUCSensitivitySpecificity 等概念 。 练习里使用R语言完成了回归模型建模,并做预测,计算ROC,AUC, Sensitivity 和 Specificity的例子


5. 基因间交互效应

基因间的交互效应(例如上位效应) 也对表型方差有一定的贡献。因此,我们在研究遗传因素对表型的影响时,不能忽略基因-基因之间的交互效应。常用的检测遗传因素交互作用的方法有回归模型,以及其它的机器学习算法等等,老师提供了一个小练习,让我们用带交互效应的回归模型去拟合数据,然后做预测,结果发现,确实有交互效应项的模型对表型预测的更准,再次说明基因-基因之间的交互效应在一定程度上影响着我们对表型方差的遗传解释。
此外,基因也具有多效应,即一个基因可以对多个表型有影响,也有非常多检测基因多效性的方法,这里老师就没有详细展开了。

  • 5
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 12
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值