基于机器学习和序列信息的蛋白质亚线粒体定位预测算法研究

阿头！

已于 2022-10-18 10:54:07 修改

阅读量588

点赞数

文章标签：机器学习算法人工智能

于 2022-10-18 10:00:45 首次发布

原文链接：https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CMFD&dbname=CMFD202102&filename=1021588001.nh&uniplatform=NZKPT&v=Qnkoxk1W_HUx7IUrf1CVRSM_kWtZNkZM4djE_zgMs_LTJTWjQBD6eO86YzAxdKEh

版权

这篇博客探讨了利用机器学习和深度学习预测蛋白质亚线粒体定位的方法。研究中，通过融合不同特征如伪氨基酸组成、位置相关得分矩阵和二肽组分，采用SMOTE过采样处理数据不平衡问题。XGBoost和深度学习模型（如卷积神经网络）被用于构建预测器，其中SVM表现最佳。这些预测器如SubMito、SubMito-PSPCP和SubMito-XGBoost显著提高了预测准确性，为生物信息学研究提供了有力工具。

摘要由CSDN通过智能技术生成

基于机器学习和序列信息的蛋白质亚线粒体定位预测算法研究

机器学习

数据集

数据不平衡问题：过采样

SMOTE算法的基本思想是分析少量亚线粒体蛋白并合成新样本添加到数据集中。

M317

Du P,Li Y.Prediction of protein submitochondria locations by hybridizing pseudo-amino acid composition with various physicochemical features of segmented sequence[J].BMC Bioinformatics,2006,7(1):1-8.
M983

Du P,Yu Y.SubMito-PSPCP:predicting protein submitochondrial locations by hybridizing positional specific physicochemical properties with pseudoamino acid compositions[J].BioMed Research International,2013,2013:263829.

在这里插入图片描述

特征

基于序列信息：

二肽组分（DC）

在这里插入图片描述

伪氨基酸组成（PseACC）

在这里插入图片描述

基于自交叉协方差转换的位置相关得分矩阵（ACC-PSSM）

1665999577271

特征融合：特征拼接DC+PseAAC+ACC-PSSM（共4470维）

特征筛选：极限梯度提升机

XGBoost算法先对特征进行排序，再根据阈值选出特征。

最后得到数据集M317在维数为547时，数据集M983在维数为878时精度最高

预测分类器（集成学习投票）

随机森林
支持向量机
轻量级梯度提升机（LightGBM）

从结果上看，SVM算法优于RF和LightGBM算法，RF算法和LightGBM算法各有千秋

深度学习

数据集

SM424-18

Du P,Yu Y.SubMito-PSPCP:predicting protein submitochondrial locations by hybridizing positional specific physicochemical properties with pseudoamino acid compositions[J].BioMed Research International,2013,2013:263829.
SubMitoPred

Kumar R,Kumari B,Kumar M.Proteome-wide prediction and annotation of mitochondrial and sub-mitochondrial proteins by incorporating domain information[J].
Mitochondrion,2018,42:11-22.
M983

Yu B,Qiu W,Chen C,et al.SubMito-XGBoost:predicting protein submitochondrial localization by fusing multiple feature information and e Xtreme gradient boosting[J].
Bioinformatics,2020,36(4):1074-1081.

在这里插入图片描述

特征

先将序列切割成长度一致的序列，再用one-hot编码

首先，长度为L的蛋白质序列被切分成多段长度为S的子序列，每个子序列作为一个通道。因此整条序列可以被分割具有W段重叠的子序列，数量为(L−S)/(S−W)。如果蛋白质序列的长度小于S，用N填充它到一个固定的长度。然后将序列转换为矩阵编码。

预测方法

卷积神经网络

第一部分是数据预处理。滑动窗口将每个输入的蛋白质序列分割成相同的序列，然后将每个子序列转换为一个矩阵M。第二部分包括两个卷积层。每个卷积层用来捕获序列中的特征，前一层的输出作为下一层的输入。其中，卷积核对输入数据进行扫描，将捕捉的特征信息映射到激活函数中激活。最后，通过最大池化层对数据降维。第二层卷积层后连接dropout层，随机删除一些神经元，避免过拟合。两个全连接的层组成了第三部分。第一个全连接层后连接dropout层。最后的全连接层有四个神经元，分别对应于四种类型:外膜、内膜、膜间隙和基质。

在这里插入图片描述

预测性能评估

均来源于混淆矩阵：

在这里插入图片描述

相关内容

常用于提取蛋白质序列的方法主要有：二肽组分（Dipeptide composition,DC）[15]、氨基酸组成（Aminoacid composition,AAC）[16]、伪氨基酸组成（Pseudo Amino Acid Composition,PseAAC）[17]、进化信息（Position-specific score matrices,PSSM）[18]等。其次，算法的选择也是重中之重，常用于分类的算法包括：支持向量机（Support Vector Machine,SVM），K最近邻（K-Nearest Neighbor,KNN）等。研究人员在上述方法的基础上，提出了一些用于蛋白质亚线粒体定位预测的预测器，主要有SubMito[19]、TetraMito[20]、SubMito-PSPCP[21]、SubMitoPred[22]、SubMito-XGBoost[23]和DeepMit[24]等。

2006年，Du等人[19]首次基于SVM算法提出了SubMito预测器，该方法使用了伪氨基酸组成特征，总体精度达到85.2%。Lin等人[20]利用二项分布选择的过代表四肽来预测亚线粒体蛋白的位置，并构建了一个严格的基准数据集M495。Du和Yu[21]引入一个叫做位置特定理化性质(Positional SpecificPhysicochemical Properties,PSPCP)的新概念，即融合伪氨基酸组成和位置特异性理化性质，构建了SubMito-PSPCP预测器，提高了亚线粒体的总体预测准确率。Kumar等人[22]提出了SubMitoPred预测器可以同时预测线粒体蛋白质和亚线粒体蛋白质位置。Ahmad等人[25]融合多种特征并结合合成少数过采样技术（Synthetic Minority OversamplingTechnique,SMOTE）方法，获得了令人满意的预测结果。