Genscan操作实战

Genscan是一款专门用于识别编码蛋白基因的软件,它能够解析新基因并预测外显子位置。软件适用于多种生物体,如人类、植物等。安装过程包括下载、解压及权限设置,运行时需指定参数文件和序列文件。输出包括预测的基因序列和蛋白质序列,以及外显子位置的图形展示。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Genscan指南
GenScan是一个gene识别软件,主要是通过已知生物的基因结构特征来识别新的基因(parse)。所利用的基因特征请参看readme文件。

特点:
只考虑编码蛋白的基因。
模型考虑每个sequence可能有0个,1个,多个,甚至双链都有基因。
假设transcription units没有overlapping。
Input:
基因组序列

Output:
文本文件:识别出来的外显子基因,翻译后的蛋白质序列。
图形文件:展示预测外显子的位置

  1. 安装
    安装要求:
    N kilobases的序列需要 N/2 Megabytes of RAM

获取软件
Genscan对学术用户免费,需要在这里提交你的姓名和地址后下载Intel/Linux distribution。此时还可以看到readme文件

下载到的文件是genscanlinux.tar.uue

安装步骤
建立安装目录

mkdir GENSCANS
cd GENSCANS
mv 下载目录/genscanlinux.tar.uue ./
解压缩

sudo apt-get install sharutils
uudecode genscanlinux.tar.uue
tar -xvf genscanlinux.tar
./
./Arabidopsis.smat
./HUMRASH
./HUMRASH.sample
./HumanIso.smat
./Maize.smat
./README
./HUMRASH.ps
./genscan
确保你的权限

chmod a+x genscan
chmod a+r .smat
把genscan和配置文件(
.smat)安装到你的环境变量中

mv genscan /usr/bin/genscan
mkdir /usr/lib/GENSCAN
mv *.smat /usr/lib/GENSCAN
尝试运行

genscan
usage: genscan parfname seqfname [-v] [-cds] [-subopt cutoff] [-ps psfname scale]

   parfname : full pathname of parameter file
              (for appropriate organism)

   seqfname : full pathname of sequence file
              (FastA or minimal GenBank format)

   -v       : verbose output (extra explanatory info)

   -cds     : print predicted coding sequences (nucleic acid)

   -subopt  : display suboptimal exons with P > cutoff (optional)
   cutoff   : suboptimal exon probability cutoff (minimum: 0.01)

   -ps      : create Postscript output (optional)
   psfname  : filename for PostScript output
   scale    : scale for PostScript output (bp per line)

以上文件出现则安装成功

  1. 运行程序
    参数文件
    参数文件中包含了基因组中基因序列的各种特征,不同物种有所区别。目前可用的物种参数文件,包括:

HumanIso.smat-----------------human/vertebrate sequences (also Drosophila)(脊椎动物)
Arabidopsis.smat---------------Arabidopsis thaliana sequences(双子叶植物)
Maize.smat----------------------Zea mays sequences(单子叶植物)

使用时请于物种相对应,否则效果很差

序列文件
fasta文件即可(还支持minimal GenBank文件)
运行程序(双子叶植物为例)

genscan /usr/lib/GENSCAN/Arabidopsis.smat 我的序列.fasta -ps 图片output名称.ps > 文字output名称.txt
3. 结果
文本文件:识别出来的外显子基因,翻译后的蛋白质序列。
例子
GENSCAN 1.0 Date run: 12-Mar-98 Time: 10:28:00

Sequence HUMRASH : 6453 bp : 68.19% C+G : Isochore 4 (57 - 100 C+G%)

Parameter matrix: HumanIso.smat

Predicted genes/exons:

Predicted peptide sequence(s):

HUMRASH|GENSCAN_predicted_peptide_1|189_aa
MTEYKLVVVGAGGVGKSALTIQLIQNHFVDEYDPTIEDSYRKQVVIDGETCLLDILDTAG
QEEYSAMRDQYMRTGEGFLCVFAINNTKSFEDIHQYREQIKRVKDSDDVPMVLVGNKCDL
AARTVESRQAQDLARSYGIPYIETSAKTRQGVEDAFYTLVREIRQHKLRKLNPPDESGPG
CMSCKCVLS
图形文件:展示预测外显子的位置

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值