《CancerMine: a literature-mined resource for drivers, oncogenes and tumor suppressors in cancer》
癌症基因:为癌症的驱动因素、致癌基因和肿瘤抑制因子而开发的文献资源
来自癌症患者的肿瘤经常被遗传分析,以了解疾病背后的驱动力。我们提出了癌症资源,一个文本挖掘和定期更新的数据库驱动器,致癌基因和肿瘤抑制在不同类型的癌症。所有数据都可以在线获得(http://bionlp.bcgsc.ca/cancermine),并且可以根据知识共享协议Zero许可证下载,以便使用。
要解释患者样本中出现的体细胞事件,有必要了解哪些基因在相应癌症类型的发展中发挥重要作用。这通常需要大量的文献回顾。我们已经开发了一种文本挖掘方法,它可以识别基因作为驱动因素、致癌基因或肿瘤抑制因子的提及。此方法用于创建一个资源,该资源将与每月发布的版本保持最新,并且适用于数据分析管道。我们还提供了一个基于这些数据的在线工具,用于从基因列表和癌症类型集群的相互作用图中识别癌症基因,这有助于了解癌症的躯体结构。致癌基因是促进癌症发展的基因(以正常或异常的形式),而抑癌基因则是抑制癌症发生的基因。
“驱动因子”是指在癌症发展过程中起重要作用的基因,可以是致癌基因,也可以是肿瘤抑制因子。一些基因(例如NOTCH1)在一种类型的癌症中被识别为致癌基因,在另一种类型的癌症中被识别为抑癌基因。此外,许多基因只在某些类型的癌症中很重要,而在其他类型的癌症中可能是无关紧要的。癌症的类型提供了一个重要的背景,当一个人是相互预测的相关性,在病人样本的体细胞畸变。
目前存在不同的方法来识别潜在的癌症相关基因,包括对大基因组组中突变频率的统计分析和基因敲除的体外研究。已经建立了一些资源来分类基因在癌症中的作用。癌症基因普查(CGC)4使用来自癌症体细胞突变目录(COSMIC)的数据列出了已知的致癌基因和肿瘤抑制因子。癌症基因5网络建立在CGC的基础上,并集成了各种各样的附加上下文数据,比如突变的频率。IntOGen6使用来自大规模测序项目的数据(例如,癌症基因组图谱(