摘要
文章提出了一种优化的卷积神经网络,可以通过mRNA levels来预测蛋白质levels,证明了基因之间较大比例的变异,相对于它们的稳态 mRNA 表达水平来说,是可以通过基因组序列的特征中预测的。
文章地址:Predicting mRNA Abundance Directly from Genomic Sequence Using Deep Convolutional Neural Networks
模型结构
网络结构:如图1。由两个顺序卷积层和最大池化层组成,然后是输出神经元之前的两个全连接层,总共包含 112,485 个参数。超参数如图2。
图1 网络结构
图2 超参数
输入:TSS (转录起始点)上游 7 kb 到下游 3.5 kb 的区域。
输出:mRNA水平
超参数搜素:使用了手动定义和两种优化策略- simulated annealing (SA) 和Tree of Parzen estimators (TPE)。
对于手动定义的深度学习架构,是通过先验知识得到的。即控制转录率的信息很可能定位于 TSS 周围 ±1,500 bp 启动子内的序列元素,且受到了以前用于从 DNA 序列预测染色质可及性区域的深度学习框架的启发。
对于TPE方法发现的超参数指定的最佳深度学习框架,使用了10个独立试验来测试,其中9 次收敛到相似的 MSE 值。对于最终模型,选择了从最小化验证 MSE 的特定试验和时期派生的参数。
实验(验证过程)
- 评估56 种人类细胞类型的相关结构,对细胞类型之间 mRNA 表达水平的成对 Spearman 相关性进行评估,大多数细胞类型高度相关,任何一对细胞类型之间的平均相关性约为 0.78。证明开发细胞不可知、可以预测中值 mRNA 表达水平的模型是可行的。
- 初始化模型超参数的搜素,改变了几个关键的超参数,mRNA 衰变特征没有变化。
- 使用三种超参数搜索方法发现更好的超参数集,发现TPE 方法实现了 0.401 的最佳验证均方误差 (MSE)。
- 用 TPE 方法发现的超参数指定的最佳深度学习架构来训练 10 个独立试验。选择了从最小化验证 MSE 的特定试验和时期派生的参数。
- 得到最终模型,相关超参数如图2。
- 对训练集进行了二次抽样,并分别在验证集和测试集上评估了 MSE 和 r 2 r^2 r2 ,发现在 4,000 到 6,000 个训练示例之间获得最大的性能提升。
- 比较方法在哺乳动物物种中的普遍性和性能。关注人类和小鼠的 18,377 个和 21,856 个基因,我们可以匹配启动子序列和基因表达水平,并在每个物种中保留 1,000 个基因作为测试集。最佳人体模型的 r 2 r^2 r2为 0.59,小鼠中最好的小鼠模型实现了显着更高的 r 2 r^2 r2为 0.71。
- 重新训练人类和小鼠特定模型,这些模型具有相同的一对一直系同源物组。在一组相同或相反物种的一对一直系同源物上测试了这些模型的性能。对每个物种进行训练的模型在对立物种的测试集上取得了与同一物种相似的性能。表明模型所学习的调控原理在整个哺乳动物系统发育中都具有普遍性。
- 为了验证模型的普遍性,构建了特定于细胞类型的模型。使用相同的超参数,我们训练了新模型来预测人类骨髓性白血病细胞 (K562)、人类淋巴母细胞 (GM12878) 和小鼠胚胎干细胞 (mESCs) 的所有蛋白质编码基因的表达水平。
- 通过 SuRE 测量和 K562 的特异性,Xpresso 模型预测 K562 表达水平(分别为 r 2 r^2 r2= 0.53 和 0.51),通过比较 r 2 r^2 r2来评估仅从启动子序列预测基因表达的最大可能性能,表明文章提出的模型能够了解解释 mRNA 表达水平的序列编码信息的主要来源。
- 和基线模型和已经存在的模型相比,预测 mRNA 水平,取得了较好的结果,在人类和小鼠中分别比这些模型提高了 11.2% 和 11.7%。10 折交叉验证结果进一步验证了模型在人和小鼠中的表现都明显优于基于k -mer 的最佳替代方法。
结论
该模型使用卷积神经网络,使用基因组序列来预测mRNA 表达水平,其预测能力通常能超过现有的其他模型,且能够在任意细胞类型上进行训练,包括缺乏实验数据的细胞