Identifying Antioxidant Proteins by Using Optimal Dipeptide Compositions论文笔记

本文是一篇关于通过最优二肽组成识别抗氧化蛋白的论文笔记,探讨了抗氧化蛋白在细胞防御机制中的重要性。研究使用特征选择、SVM算法和G-gap特征表示方法对肽序列进行分析,并开发了名为AodPred的预测工具。数据集来自UniProt,包含1552个正样本和253个负样本。特征表示包括20维氨基酸频率向量和G-gap编码,后者通过不同间隔的氨基酸对创建特征向量。
摘要由CSDN通过智能技术生成

Identifying Antioxidant Proteins by Using Optimal Dipeptide Compositions论文笔记

原文链接
发表于Interdisciplinary Sciences-Computational Life Sciences 2016。

Motivation

抗氧化蛋白是细胞缓解外来辐射伤害的一种重要的蛋白质,对维持人体细胞健康有很大的意义。
按照文中所说,抗氧化蛋白对抗辐射物质的机理简单来说就是对自由基中间体(radical intermediates)贡献一个电子,来防止自由基的中间体在生物体内形成链式反应。自由基是指化合物的分子在光热等外界条件下,共价键发生均裂而形成的具有不成对电子的原子或基团。(自由基百度百科)。
本篇文章主要的目的是利用机器学习算法去分析组成抗氧化蛋白的肽的结构,主要的contribution如下:

  1. 首先使用feature selector在序列中提取重要的特征。
  2. 使用SVM算法去解析了肽的结构,即序列的结构,performance不错。
  3. 以SVM算法为引擎,构建了一个tool web,称为AodPred。

算法即评价指标

数据集

数据集的源头为UniProt database,CD-HIT项目消除了该数据库中相似度>60%的样本。我们这次的数据集总共包含1552个正样本和253个负样本。

特征表示方法

一般来说,我们的蛋白质都由以下20中氨基酸组成:
在这里插入图片描述

简单特征表示方法

经过调研,蛋白质最常用的氨基酸有20种,最简单的方法即为把一个蛋白质序列表示为一个20纬的特征向量:
在这里插入图片描述
其中, f i f_{i} fi表示的是编号为 i i i的氨基酸在该蛋白序列中的频率。
考虑到氨基酸在蛋白质序列中的排列顺序,是蛋白质生物功能的基础。

G-gap 特征表示方法

本文,或者说绝大多数做蛋白质序列检测的论文,都使用的是g-gap这样的特征编码方式。g-gap特征编码可以总结为一下步骤:

  1. 假设我们的蛋白质序列共有 N N N种不同的碱基对,两两组合过后,就有 N × N N\times N N×N个pairs。
  2. 针对于每一个氨基酸序列,我们把中间间隔为 g − 1 g-1 g1的碱基两两组合起来成为pairs。例如,对于序列 A B C D E ABCDE ABCDE g g g为2,则我们的组合后的序列为 { A C , B D , C E } \{ AC,BD,CE \} {AC,BD,CE}
  3. 对于每一个氨基酸序列,我们按照前面所说的方法利用频率对特征进行编码,最后得到一个 N × N N \times N N×N的向量。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值