基于机器学习和序列信息的蛋白质亚线粒体定位预测算法研究
机器学习
数据集
数据不平衡问题:过采样
SMOTE算法的基本思想是分析少量亚线粒体蛋白并合成新样本添加到数据集中。
-
M317
Du P,Li Y.Prediction of protein submitochondria locations by hybridizing pseudo-amino acid composition with various physicochemical features of segmented sequence[J].BMC Bioinformatics,2006,7(1):1-8.
-
M983
Du P,Yu Y.SubMito-PSPCP:predicting protein submitochondrial locations by hybridizing positional specific physicochemical properties with pseudoamino acid compositions[J].BioMed Research International,2013,2013:263829.
特征
基于序列信息:
- 二肽组分(DC)
- 伪氨基酸组成(PseACC)
- 基于自交叉协方差转换的位置相关得分矩阵(ACC-PSSM)
1665999577271
特征融合:特征拼接DC+PseAAC+ACC-PSSM(共4470维)
特征筛选:极限梯度提升机
XGBoost算法先对特征进行排序,再根据阈值选出特征。
最后得到数据集M317在维数为547时,数据集M983在维数为878时精度最高
预测分类器(集成学习投票)
- 随机森林
- 支持向量机
- 轻量级梯度提升机(LightGBM)
从结果上看,SVM算法优于RF和LightGBM算法,RF算法和LightGBM算法各有千秋
深度学习
数据集
-
SM424-18
Du P,Yu Y.SubMito-PSPCP:predicting protein submitochondrial locations by hybridizing positional specific physicochemical properties with pseudoamino acid compositions[J].BioMed Research International,2013,2013:263829.
-
SubMitoPred
Kumar R,Kumari B,Kumar M.Proteome-wide prediction and annotation of mitochondrial and sub-mitochondrial proteins by incorporating domain information[J].
Mitochondrion,2018,42:11-22. -
M983
Yu B,Qiu W,Chen C,et al.SubMito-XGBoost:predicting protein submitochondrial localization by fusing multiple feature information and e Xtreme gradient boosting[J].
Bioinformatics,2020,36(4):1074-1081.
特征
先将序列切割成长度一致的序列,再用one-hot编码
首先,长度为L的蛋白质序列被切分成多段长度为S的子序列,每个子序列作为一个通道。因此整条序列可以被分割具有W段重叠的子序列,数量为(L−S)/(S−W)。如果蛋白质序列的长度小于S,用N填充它到一个固定的长度。然后将序列转换为矩阵编码。
预测方法
卷积神经网络
第一部分是数据预处理。滑动窗口将每个输入的蛋白质序列分割成相同的序列,然后将每个子序列转换为一个矩阵M。第二部分包括两个卷积层。每个卷积层用来捕获序列中的特征,前一层的输出作为下一层的输入。其中,卷积核对输入数据进行扫描,将捕捉的特征信息映射到激活函数中激活。最后,通过最大池化层对数据降维。第二层卷积层后连接dropout层,随机删除一些神经元,避免过拟合。两个全连接的层组成了第三部分。第一个全连接层后连接dropout层。最后的全连接层有四个神经元,分别对应于四种类型:外膜、内膜、膜间隙和基质。
预测性能评估
均来源于混淆矩阵:
相关内容
常用于提取蛋白质序列的方法主要有:二肽组分(Dipeptide composition,DC)[15]、氨基酸组成(Aminoacid composition,AAC)[16]、伪氨基酸组成(Pseudo Amino Acid Composition,PseAAC)[17]、进化信息(Position-specific score matrices,PSSM)[18]等。其次,算法的选择也是重中之重,常用于分类的算法包括:支持向量机(Support Vector Machine,SVM),K最近邻(K-Nearest Neighbor,KNN)等。研究人员在上述方法的基础上,提出了一些用于蛋白质亚线粒体定位预测的预测器,主要有SubMito[19]、TetraMito[20]、SubMito-PSPCP[21]、SubMitoPred[22]、SubMito-XGBoost[23]和DeepMit[24]等。
2006年,Du等人[19]首次基于SVM算法提出了SubMito预测器,该方法使用了伪氨基酸组成特征,总体精度达到85.2%。Lin等人[20]利用二项分布选择的过代表四肽来预测亚线粒体蛋白的位置,并构建了一个严格的基准数据集M495。Du和Yu[21]引入一个叫做位置特定理化性质(Positional SpecificPhysicochemical Properties,PSPCP)的新概念,即融合伪氨基酸组成和位置特异性理化性质,构建了SubMito-PSPCP预测器,提高了亚线粒体的总体预测准确率。Kumar等人[22]提出了SubMitoPred预测器可以同时预测线粒体蛋白质和亚线粒体蛋白质位置。Ahmad等人[25]融合多种特征并结合合成少数过采样技术(Synthetic Minority OversamplingTechnique,SMOTE)方法,获得了令人满意的预测结果。