Anticancer peptides prediction with deep representation learning features
中科院分区:二区(Briefings in Bioinformatics)
代码链接: https://github.com/zhibinlv/iACP-DRLF
数据集: https://webs.iiitd.edu.in/raghava/anticp2/
论文地址:https://doi.org/10.1093/bib/bbab008
研究意义:
抗癌肽是治疗人类常见癌症最有前途的药物之一。传统治疗癌症的主要方法是放疗,化疗和靶向治疗,这些治疗方法的目的是杀死癌细胞,但同时也损害正常细胞,这些方法都有明显的副作用。抗癌肽( ACPs)是被发现具有抗癌作用的肽。他们是天然的生物抑制剂,天然的阳离子性质使得能够选择性地与癌细胞的阴离子细胞膜成分相互作用,因此它们对杀死癌细胞表现出更高的选择性。
数据集:
论文使用了两个基准数据集,一个数据集称为主数据集。包含861个ACPs和861个非ACPs,将主数据集分为两个子数据集进行五倍交叉验证和独立测试。另一个数据称为替代数据集,由970个ACPs和970个非ACPs组成。也分为训练子集和独立测试子集。
模型:
两种序列深度表征学习嵌入方法(源代码):
https://github.com/tbepler/protein-sequence-embedding-iclr2019
https://github.com/churchlab/UniRep
六种机器学习算法:(KNN(k-近邻),LDA(线性判别分析),SVM (支持向量机),RF(随机森林),LGBM(光梯度提升机),NB(朴素贝叶斯))
结果:
1.六个模型基于五次交叉验证比较(采用主数据集数据)
2.六个模型基于五次交叉验证比较(采用备用数据集)
3.基于主训练数据集的六种不同特征类型机器学习模型的五重交叉验证精度和灵敏度比较
4.基于主独立测试数据集的六种不同特征类型机器学习模型的独立测试精度和灵敏度比较
5.基于备用训练数据集的六种不同特征类型机器学习模型的五重交叉验证精度和灵敏度比较