Incorporating biological structure into machine learning models in biomedicine
Introduction
将生物医学知识纳入机器学习模型可以揭示嘈杂数据中的模式,并有助于模型解释。
生物知识可以采取多种形式,包括基因组序列,途径数据库,基因相互作用网络和知识层次结构,例如基因本体论。
Sequence models
方法概述
早期的神经网络模型主要将人工参与的序列特征作为全连接神经网络的输入。
将2D空间中附近的图像像素或者线性基因组中附近的碱基对分组,作为CNN的输入,CNN可对其提取特征以进行预测。
eg. Angermueller
应用
regulatory biology 调节生物学
-
处理大量数据
BPNet:预测DNA序列的转录因子结合谱的DNA,可以精确定位小鼠胚胎干细胞中结合基序的已知位置。考虑每个位置上下1000个碱基对。
cDeepbind:将RNA序列与有关二级结构的信息结合在一起,以预测RNA结合蛋白的亲和力。它的CNN结合了序列和结构信息的特征向量。
APARENT