生信人填坑记~pasa注释结果提取常用gff,lens等文件-基因组注释后续

历经千辛万苦,我终于拿到了一个可以用的基因组数据了!值得纪念
拿到注释结果之后就可以直接使用嘛?当然不是的啦!通过WGDI入门生信的我第一次看注释结果就是一脸懵。如何才能制作成我想要的格式?耗费了了大量的时间。

PASA注释结果以及结果提升!结果整理

pasa
第一步 利用EVM的程序提取对应的gene,pep,cds序列

> evidencemodeler-1.1.1/EvmUtils/gff3_file_to_proteins.pl sqliteax1.gene_structures_post_PASA_updates.25923.gff3 s.fasta prot >s.prot.fasta

> evidencemodeler-1.1.1/EvmUtils/gff3_file_to_proteins.pl sqliteax1.gene_structures_post_PASA_updates.25923.gff3 s.fasta CDS >s.cds.fasta

> evidencemodeler-1.1.1/EvmUtils/gff3_file_to_proteins.pl sqliteax1.gene_structures_post_PASA_updates.25923.gff3 s.fasta gene >s.gene.fasta

现在我们手上就有gff3,基因组,蛋白质,cds,gene这个五个文件。

文件处理

软件工具这里有一个脚本包GeneClear

GeneClear是一个新工具包,目前功能比较单一。只有两个功能,第一个是清洗PASA注释结果,输入文件为我上面提到的五个文件。

软件安装

  1. github下载安装
    GeneClear
    GitHub
    下载whl文件
pip install GeneClear-0.0.0-py3-none-any.whl
  1. 直接pip安装(待完善,近期还未优化好)
pip install GeneClear

GeneClear -h

PASA文件处理

将上述五个文件放入一个目录下之后
打开终端
输入(注意:这里不是乱码!是命令里面有 “?” 符号)

GeneClear -getpasa ?

GeneClear -getpasa ?> run.conf

会在当前路径下生成对应的run.conf文件
配置文件
将前文的五个文件对应到配置文件内保存。
运行程序

GeneClear -getpasa run.conf

则可以得到数据清洗之后的结果了。

清洗NCBI下载数据

其他数据
GeneClear目前还提供一个处理NCBI下载的基因组数据的功能。

GeneClear -getncbi ?

GeneClear -getncbi ?> run.conf

配置文件
运行之前下载对应基因组的gff3,pep,cds,genome(可选)等文件
运行程序

GeneClear -getncbi run.conf

注意,在没有指定基因组fasta的时候,这个软件生成的lens文件里染色体的长度(第二列)是根据染色体末位基因的终止位置确定的,需要用户自己确定。
修正

软件运行需要输入对部分数据的修正方法

  1. gff染色体号如果是EVM_01 默认会修改为atEVM_01,只需要回车,如果需要需改成at01,则分割符号为 _,保留序号为 1.
  2. 对CDS文件或者蛋白质文件内序列ID的修改,部分数据的CDS序列id和蛋白质ID会不一样,比如cds序列id为 abcdefg01.1,但是蛋白质序列id为 abcdefg01.1.CDS,则此时使用分割符号为 .CDS,保留序号为 0
    软件该功能使用注意事项:尽量保证pep和cds的id一致,尽量保证染色体名称不需要大修改。
    提取PASA
    在这里提取PASA的结果主要是如图,

gene_gff

在这里插入图片描述
exongff和CDSgff格式
exon-cds

CDS和PEP格式实际就是fasta

cds_pep

lens文件

lens

好啦!整个基因组的需要的数据准备好了,接下来可以开始快乐的生信分析了!

pypi升级的API令牌实在是太难搞了,一点也不友好了。原谅作者只放了两个功能!!!
安详

不知道有多少生信人在此迷茫,我曾经在各种生信群里求助最后消息都如同泥牛入海。为此我重新建立一个群,进群的小伙伴备注以下自己使用什么软件。咱尽量做到基因组组装方面有问必答。也欢迎大佬来群视察,要是能开个基因组组装的讲座啥的就再好不过了!
进群请charles_kiko@163.com 备注基因组加群

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值