使用蛋白质和mRNA序列信息预测蛋白质亚线粒体定位 对亚线粒体蛋白质M254的预测 数据集 M254(来自M317) 共包含317条亚线粒体蛋白质且序列间的相似性低于40%,分别位于基质、内膜、外膜三个位置。从GeneBank中找出每条蛋白质对应的成熟的mRNA,即编码蛋白质的mRNA。由于有的蛋白质在数据库中没有实验证实的mRNA,并且删除亚细胞位置从单定位变成多定位的、在Swiss-Prot数据库中已经删除的蛋白质,获得254条与mRNA对应的蛋白质,即M254。 特征选择 mRNA序列的H联体频数(3-mer) 分段氨基酸组分(AAC) 将序列分段整理为相同长度的序