Identifying Antioxidant Proteins by Using Optimal Dipeptide Compositions论文笔记
原文链接
发表于Interdisciplinary Sciences-Computational Life Sciences 2016。
Motivation
抗氧化蛋白是细胞缓解外来辐射伤害的一种重要的蛋白质,对维持人体细胞健康有很大的意义。
按照文中所说,抗氧化蛋白对抗辐射物质的机理简单来说就是对自由基中间体(radical intermediates)贡献一个电子,来防止自由基的中间体在生物体内形成链式反应。自由基是指化合物的分子在光热等外界条件下,共价键发生均裂而形成的具有不成对电子的原子或基团。(自由基百度百科)。
本篇文章主要的目的是利用机器学习算法去分析组成抗氧化蛋白的肽的结构,主要的contribution如下:
- 首先使用feature selector在序列中提取重要的特征。
- 使用SVM算法去解析了肽的结构,即序列的结构,performance不错。
- 以SVM算法为引擎,构建了一个tool web,称为AodPred。
算法即评价指标
数据集
数据集的源头为UniProt database,CD-HIT项目消除了该数据库中相似度>60%的样本。我们这次的数据集总共包含1552个正样本和253个负样本。
特征表示方法
一般来说,我们的蛋白质都由以下20中氨基酸组成:
简单特征表示方法
经过调研,蛋白质最常用的氨基酸有20种,最简单的方法即为把一个蛋白质序列表示为一个20纬的特征向量:
其中,
f
i
f_{i}
fi表示的是编号为
i
i
i的氨基酸在该蛋白序列中的频率。
考虑到氨基酸在蛋白质序列中的排列顺序,是蛋白质生物功能的基础。
G-gap 特征表示方法
本文,或者说绝大多数做蛋白质序列检测的论文,都使用的是g-gap这样的特征编码方式。g-gap特征编码可以总结为一下步骤:
- 假设我们的蛋白质序列共有 N N N种不同的碱基对,两两组合过后,就有 N × N N\times N N×N个pairs。
- 针对于每一个氨基酸序列,我们把中间间隔为 g − 1 g-1 g−1的碱基两两组合起来成为pairs。例如,对于序列 A B C D E ABCDE ABCDE, g g g为2,则我们的组合后的序列为 { A C , B D , C E } \{ AC,BD,CE \} {AC,BD,CE}。
- 对于每一个氨基酸序列,我们按照前面所说的方法利用频率对特征进行编码,最后得到一个 N × N N \times N N×N的向量。