论文地址:Deep learning predicts tuberculosis drug resistance status from genome sequencing data
基于深度学习和基因组测序数据的结核病耐药性预测研究
作者信息:
[1]哈佛医学院生物医学信息系
[2]弗吉尼亚大学医学院
[3]分析机构
[4]关键路径研究所
[5]马萨诸塞州总医院肺科及危重科
概念介绍:
菌株:任何由一个独立分离的单细胞通过繁殖而成的纯遗传型群体及其后代。
MDR:对利福平[RIF]和异烟肼[INH]具有耐药性。
XDR: 对一种二线注射药物耐药,如阿米卡星[AMK]、卡那霉素[KAN]或卡波霉[CAP],以及一种氟喹诺酮耐药,如莫西沙星[MOXI]、氧氟沙星[OFLX]
一线用药:根据患者病情可以首先选择的药物。
二线用药:一线用药耐药以后选择的药物 。
表型:具有特定基因型的个体,在一定环境条件下所表现出来的性状特征的总和。
上位效应:一对基因显性基因的表现受到另一对非等位基因的作用。这种非等位基因间的抑制或遮掩作用叫上位效应。
研究背景:
结核病是全球十大死亡原因之一。抗生素的广泛使用导致耐药菌株的流行率增加。
据世界卫生组织估计,4.1%的新结核分枝杆菌临床分离株(MTB)是多药耐药(MDR)的,大约9.5%的MDR病例是广泛耐药的( XDR )。
48%的多药耐药结核病和72%的广泛耐药结核病患者有不良的治疗结果。
诊断药物的耐药性仍是提供适当结核病治疗的阻碍。
常规培养和基于培养的抗微生物药敏试验:结核分枝杆菌体外生长缓慢,构成了相当大的生物危害,需要数月才能报告结果。
分子诊断:世界卫生组织批准的三种分子测试,GenXpert、基于RT-PCR的快速检测(针对RIF)、LPA。但是它们仍存在缺陷。
1.灵敏度有限,依赖少数几个基因位点。
2.没有检测到大多数罕见的基因变异。
3.仅检测5种抗结核药物的耐药性。
4.没有考虑到遗传背景和基因-基因相互作用等变量。
全基因组测序:捕获了与耐药性有关的常见和罕见突变,成本低,速度快。但是,通过基因型数据预测表型的准确率仍与传统方法存在差距。
研究方法:
训练数据:汇集了来自世卫组织国家相关实验室和ReSeqTB知识库的数据。共包括 3,601个MTB分离株(其中1228株为多药耐药)。所有抗结核药物的敏感菌株比例均高于耐药菌株,不同药物的敏感菌株比例在53.0%至88.1%之间。
在MTB分离株基因组的30个启动子、基因间和编码区共发现了6342个不同的插入、缺失和单核苷酸多态性(SNPs)。 在这些变异中有166个,在3601个分离株中至少30