AAC(氨基酸组成)
氨基酸组成(AAC)编码计算蛋白质或肽序列中每种氨基酸类型的频率。所有20种天然氨基酸(即“ACDEFGHIKLMNPQRSTVWY”)的频率可以计算为:
其中N(t)是t型氨基酸的数量,而N是蛋白质或肽序列的长度。AAC描述符已成功应用于核受体分类和抗癌肽预测。
CKSAAP (k-间隔氨基酸对的组成)
CKSAAP特征编码计算任意k个残基(k= 0,1,2,…,5)分隔的氨基酸对的频率。以k=0为例,有400个0间隔的残基对(即AA、AC、AD、…、YY.)。那么,一个特征向量可以定义为:
每个描述符的值表示对应的残基对在蛋白质中的组成或肽序列。例如,如果残基对AA在蛋白质中出现m次,那么残基对AA的组成等于m除以蛋白质中0间隔残基对的总数(Ntotal)。对于k = 0、1、2、3、4、5的长度为P的蛋白质,Ntotal的值分别为P - 1、P - 2、P - 3、P - 4、P - 5和P - 6。
CKSAAGP (k-间隔氨基酸基团对的组成)
k-Spaced Amino Acid Group Pairs (CKSAAGP)的组成是CKSAAP描述符的变体。它计算被任意k个残基分开的氨基酸基团对的频率。以k = 0为例,有25个0间隔的基团对(即g1g1, g1g2, g1g3,…g5g5)。因此,CKSAAGP的一个特征向量可以定义为:
CTDC
以疏水性属性为例,将所有氨基酸分为极性、中性和疏水性三组。组成描述符由三个值组成:蛋白质的极性、中性和疏水残基的整体组成(百分比)。下图S22提供了这种编码方案的图解示例。组合描述符可以计算如下:
其中N(r)为编码序列中r型氨基酸的个数,N为序列长度。
CTDT
过渡描述符T也由三个值组成:从极性群到中性群的过渡是一个极性残基后面跟着一个中性残基或一个中性残基后面跟着一个极性残基的百分比频率。中性基团与疏水基团之间的过渡和疏水基团与极性基团之间的过渡的定义方式类似。然后,过渡描述符可以计算为:
其中N(r,s)和N(s,r)分别是序列中编码为“rs”和“sr”的二肽的数量,而N是序列的长度。下图提供了这种编码方案的图解示例。
组成和过渡描述符计算的一个例子。这个例子使用了疏水性属性
CTDD
分布描述符由三个组(极性、中性和疏水性)中的每个组的5个值组成,即整个序列的对应分数,其中给定组的第一个残基位于其中,包含了25、50、75和100%的出现。例如,我们从第一个残基开始,直到并包括标记任何给定组残基出现25/50/75/100%的残基,然后我们简单地用这个残基的位置除以整个序列的长度。
二肽组成(DPC)
二肽组成给出了400个描述符。定义为:
其中是由氨基酸类型r和s所表示的二肽的数量。