使用蛋白质和mRNA序列信息预测蛋白质亚线粒体定位

该博客探讨如何使用蛋白质和mRNA序列信息来预测蛋白质亚线粒体定位,重点介绍了M254数据集、特征选择(如3-mer、AAC、PSSM、GO信息)以及支持向量机作为预测方法。通过特征工程和优化,预测准确率得到了显著提升。
摘要由CSDN通过智能技术生成

使用蛋白质和mRNA序列信息预测蛋白质亚线粒体定位

对亚线粒体蛋白质M254的预测
数据集

M254(来自M317)

共包含317条亚线粒体蛋白质且序列间的相似性低于40%,分别位于基质、内膜、外膜三个位置。从GeneBank中找出每条蛋白质对应的成熟的mRNA,即编码蛋白质的mRNA。由于有的蛋白质在数据库中没有实验证实的mRNA,并且删除亚细胞位置从单定位变成多定位的、在Swiss-Prot数据库中已经删除的蛋白质,获得254条与mRNA对应的蛋白质,即M254。

在这里插入图片描述

特征选择
  1. mRNA序列的H联体频数(3-mer)

  2. 分段氨基酸组分(AAC)

    将序列分段整理为相同长度的序

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值