综述:深度学习在蛋白质结构预测中的最新进展
1. 问题引入
-
长期以来,结构生物信息学领域一直使用机器学习方法,尤其是人工神经网络(NN)模型。PHD,PSIPRED和JPred是当今仍广泛使用的早期NN方法的杰出代表。
-
DNN对CASP产生重大影响的第一个应用领域是残基-残基接触预测,这在CASP12和13中的准确性上有特别明显的提高。在CASP13中,一些小组将这些技术进一步扩展到了原子间距离的预测,在某些情况下可以将其直接用于精确的三级结构生成。
-
文章贡献
- 为CASP参与者和观察者提供对最重要的、已在最近的CASP实验中成功应用于核心问题领域的DNN体系结构工作的理解。
- 讨论这些模型相对于在各个领域中传统使用的模型可能具有的优势。
- 对这些模型为何以及如何工作、它们的局限性、潜在的缺陷以及正确的应用进行一些讨论。(所有讨论将仅限于监督学习模型,因为迄今为止在CASP中使用的性能最高的DNN模型就是这种类型)
2. 蛋白质结构预测中使用的卷积神经网络
-
感受野
这仅是指可以随时看到输入图像的区域(或更一般地说,输入特征集)。具体而言,感受野是用于计算单个输出值的输入的空间范围,通常是针对网络中给定卷积层(最常见的是最后一个)中的单个神经元计算的。由单层3×3卷积核组成的网络中的输出神经元将具有3×3的感受野,因为网络对每个输出像素进行的最终计算仅考虑输入中的中心像素及其直接邻居(图 1)。但是,将模型与连续的卷积层组合在一起,可以增加感受野;即每个输入像素周围的区域,可以在计算最终层的输出时将其包括在内(参见图2A)