文章背景
泛素泛素化是指泛素蛋白与赖氨酸(K)的靶蛋白结合,是真核生物中信号转导、细胞分裂和免疫反应等多种细胞功能的重要调节因子。然而,目前大多数预测目标位置的计算工具都是基于小规模数据和浅层机器学习算法。
结果
随着更多实验验证泛素化位点的出现,需要设计一个预测器来识别大规模蛋白质组数据中赖氨酸泛素化位点。这篇文章提出了一种基于卷积神经网络的深度学习预测器DeepUbi。从序列和物理化学性质上采用了四个不同的特征。在10倍交叉验证中,DeepUbi得到的AUC(接收机操作特征曲线下面积)为0.9,其准确性、敏感性和特异性均超过85%。综合指标MCC达到0.78。
结果表明,DeepUbi在基于大量数据的泛素化预测中具有良好的性能。
泛素最早是由Goldstein等人发现的。一九七五年[1]。泛素化是一种常见的真核细胞翻译后修饰(Ptm),是泛素与多种细胞蛋白的共价结合。2]。在泛素化过程中,泛素通过三步酶促反应附着在赖氨酸(K)残基上的底物上。有三种酶–泛素激活酶(E1s)、泛素结合酶(E2s)和泛素连接酶(E3s),它们一个接一个地起作用。3,4,5]。泛素化系统负责细胞分子功能的许多方面,如蛋白质定位、代谢、调节和降解。4,5,6,7]。它还参与细胞分裂和凋亡、信号转导、基因转录、DNA修复和复制、细胞内转运和病毒出芽等多种生物学过程的调控。4, 5]。有证据表明泛素化与细胞转化、免疫反应和炎症反应密切相关。8]。异常泛素化状态也涉及到许多疾病。例如,转移抑制因子1的泛素化是由Skp 1-cullin1-F盒β-转导蛋白介导的,对调节乳腺癌和前列腺癌细胞的增殖和迁移至关重要。9].
由于泛素化的作用,对泛素化位点的准确预测显得尤为重要。传统的实验方法费时费力,因此,作为一种补充方法,计算方法是必要的。10, 11]。近年来,各种机器学习方法被应用于蛋白质泛素化位点的预测。董和何[12]利用支持向量机(SVM)开发了泛素化位点预测器UbiPred,从已发表的氨基酸指数中选取了31个信息丰富的物理化学特征。13]。Radivojac[14使用随机森林算法开发了一个以586个序列属性作为输入特征向量的预测器UbPred。赵[15]对表决机制采取了一种整体办法。李[16]设计了UbSite,它使用有效的径向基函数(RBF)核来识别泛素化位点。陈17]利用k-间隔氨基酸对(CKSAAP)的组成,提出了一个预测因子CKSAAP_UbSite。蔡[18]提出了一种利用最近邻算法的预测器。陈19]提出了一种新的工具,UbiProber,它是为一般和特定物种设计的。陈20]通过集成四种不同类型的预测变量来开发hCKSAAP_UbSite。邱[21]使用支持向量机开发了iubq-lys。蔡和江22使用多种机器学习算法预测泛素化位点。王[23]使用进化算法(ESA)设计了一个工具,ESA-UbiSite。此外,还有许多其他预测因素,如UbiSite[24UbiBrowser[25]、鲁比[26,WPAAN分类器[27,MDDLogoClusterSVM模型[28]和非典范路径网络[29]。
虽然泛素化位点预测器已经开发出来,但仍然存在局限性。如上所述,现有的泛素化位点预测的计算方法是浅层机器学习方法,其数据集较小。然而,大量的生物医学数据已经积累,浅层机器学习算法不能很好地处理大数据。在本研究中,我们提出了一个赖氨酸泛素化预测器,DeepUbi,它使用了一个大型数据集上的深度学习框架。
交叉验证性能
如表所示。为了衡量预测器的质量,我们考虑了如何客观地得出预测值。一般采用三种不同的检验方法来评