蛋白质特征描述符

AAC(氨基酸组成)

氨基酸组成(AAC)编码计算蛋白质或肽序列中每种氨基酸类型的频率。所有20种天然氨基酸(即“ACDEFGHIKLMNPQRSTVWY”)的频率可以计算为:

eq?f%28t%29%3D%20%5Cfrac%7BN%28t%29%7D%7BN%7D%2C%20t%5Cin%20%5Cleft%20%5C%7B%20A%2CC%2CD%2C%5Ccdots%20%2CY%20%5Cright%20%5C%7D

其中N(t)t型氨基酸的数量,而N是蛋白质或肽序列的长度。AAC描述符已成功应用于核受体分类和抗癌肽预测。

 

CKSAAP (k-间隔氨基酸对的组成)

CKSAAP特征编码计算任意k个残基(k= 0,1,2,…,5)分隔的氨基酸对的频率。以k=0为例,有400个0间隔的残基对(即AA、AC、AD、…、YY.)。那么,一个特征向量可以定义为:

eq?%5Cleft%20%28%20%5Cfrac%7BN_%7BAA%7D%7D%7BN_%7Btotal%7D%7D%2C%20%5Cfrac%7BN_%7BAC%7D%7D%7BN_%7Btotal%7D%7D%2C%20%5Cfrac%7BN_%7BAD%7D%7D%7BN_%7Btotal%7D%7D%2C%5Ccdots%20%2C%20%5Cfrac%7BN_%7BYY%7D%7D%7BN_%7Btotal%7D%7D%2C%20%5Cright%20%29_%7B400%7D

每个描述符的值表示对应的残基对在蛋白质中的组成或肽序列。例如,如果残基对AA在蛋白质中出现m次,那么残基对AA的组成等于m除以蛋白质中0间隔残基对的总数(Ntotal)。对于k = 0、1、2、3、4、5的长度为P的蛋白质,Ntotal的值分别为P - 1P - 2P - 3、P - 4、P - 5P - 6。

 

CKSAAGP (k-间隔氨基酸基团对的组成)

k-Spaced Amino Acid Group Pairs (CKSAAGP)的组成是CKSAAP描述符的变体。它计算被任意k个残基分开的氨基酸基团对的频率。以k = 0为例,有25个0间隔的基团对(即g1g1, g1g2, g1g3,g5g5)因此,CKSAAGP的一个特征向量可以定义为:

eq?%5Cleft%20%28%20%5Cfrac%7BN_%7Bg1g1%7D%7D%7BN_%7Btotal%7D%7D%2C%20%5Cfrac%7BN_%7Bg1g2%7D%7D%7BN_%7Btotal%7D%7D%2C%20%5Cfrac%7BN_%7Bg1g3%7D%7D%7BN_%7Btotal%7D%7D%2C%5Ccdots%20%2C%20%5Cfrac%7BN_%7Bg5g5%7D%7D%7BN_%7Btotal%7D%7D%2C%20%5Cright%20%29_%7B25%7D

 

CTDC

以疏水性属性为例,将所有氨基酸分为极性、中性和疏水性三组。组成描述符由三个值组成:蛋白质的极性、中性和疏水残基的整体组成(百分比)。下图S22提供了这种编码方案的图解示例。组合描述符可以计算如下:

eq?C%28r%29%3D%20%5Cfrac%7BN%28r%29%7D%7BN%7D%2C%20r%5Cin%20%5Cleft%20%5C%7B%20polar%2Cneutral%2Chydrophobic%20%5Cright%20%5C%7D

其中N(r)为编码序列中r型氨基酸的个数,N为序列长度。

 

CTDT

过渡描述符T也由三个值组成:从极性群到中性群的过渡是一个极性残基后面跟着一个中性残基或一个中性残基后面跟着一个极性残基的百分比频率。中性基团与疏水基团之间的过渡和疏水基团与极性基团之间的过渡的定义方式类似。然后,过渡描述符可以计算为:

eq?T%5Cleft%20%28%20r%2Cs%20%5Cright%20%29%3D%20%5Cfrac%7BN%5Cleft%20%28%20r%2Cs%20%5Cright%20%29+N%5Cleft%20%28%20s%2Cr%20%5Cright%20%29%7D%7BN-1%7D%2C%20r%2Cs%5Cin%20%5Cleft%20%5C%7B%20%5Cleft%20%28%20polar%2C%20neutral%20%5Cright%20%29%2C%5Cleft%20%28%20neutral%2C%20hydrophobic%20%5Cright%20%29%2C%5Cleft%20%28%20hydrophobic%2C%20polar%20%5Cright%20%29%20%5Cright%20%5C%7D

其中N(r,s)N(s,r)分别是序列中编码为“rs”和“sr”的二肽的数量,而N是序列的长度。下图提供了这种编码方案的图解示例。

3c23e98ddaf44828b30dad2dca7973dd.jpeg

组成和过渡描述符计算的一个例子。这个例子使用了疏水性属性

 

CTDD

分布描述符由三个组(极性、中性和疏水性)中的每个组的5个值组成,即整个序列的对应分数,其中给定组的第一个残基位于其中,包含了25、50、75和100%的出现。例如,我们从第一个残基开始,直到并包括标记任何给定组残基出现25/50/75/100%的残基,然后我们简单地用这个残基的位置除以整个序列的长度。

​​​​​​​

二肽组成(DPC)

二肽组成给出了400个描述符。定义为:

eq?%5Cleft%20%28%20r%2Cs%20%5Cright%20%29%3D%20%5Cfrac%7BN_%7Brs%7D%7D%7BN-1%7D%2C%20r%2Cs%5Cin%20%5Cleft%20%5C%7B%20A%2CC%2CD%2C%5Ccdots%20Y%20%5Cright%20%5C%7D

其中eq?N_%7Brs%7D是由氨基酸类型r和s所表示的二肽的数量。


 

 


 

 

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值