作者:禅与计算机程序设计艺术
1.简介
随着科技的发展,人类基因组中隐私信息越来越多、保护措施也日渐完备。基于这些情况,我们可以通过大规模的个人基因组数据分析发现各种疾病的致病基因突变。然而,这些发现存在着一定的不确定性。例如,虽然目前已知的致癌基因突变数量仅占所有致病突变的很少一部分,但每个致癌突变在临床试验中的临床表现却不能确定其是否真的致癌。
为了更好地理解这些潜在影响,我们可以结合生物统计学的知识和机器学习方法,通过分析个人基因组数据的遗传变异影响患者病症的风险。具体来说,我们希望识别出病人的不易察觉的遗传变异——即临床上表现不明显或暂时的变异——并根据这些变异的发生频率、临床表现以及受到变异的基因靶点所导致的变异后果,判断这些变异对于各个疾病的预后将产生何种影响。
本文以大样本的人工健康档案数据集(PHESANT)作为研究对象,进行了遗传变异分析,并基于贝叶斯高层聚类模型(BHC)进行了突变风险评估和疾病关联分析。我们希望从中了解到:
- 在我们收集到的信息量较小的情况下,如何对不易察觉的遗传变异进行有效识别?
- 通过遗传变异之间的关联关系,我们能够推断出遗传变异的生物意义,并进一步推导出遗传变异暴露在各个疾病上的相关性,为医学决策提供参考。
- 当遗传变异出现时,人的行为可能会受到哪些因素的影响