2022.12.2PASA优化EVM合并GFF文件记录

#Trinity denovo 组装RNA

#拉取docker image
sudo docker pull trinityrnaseq/trinityrnaseq
#docker运行Trinity
sudo docker run --rm -d -v`pwd`:`pwd` trinityrnaseq/trinityrnaseq Trinity \
      --seqType fq \
      --left `pwd`/reads_1.fq.gz \
      --right `pwd`/reads_2.fq.gz
      --max_memory 20G --CPU 30 --output `pwd`/trinity_out_dir
#参数
-d 后台运行

#报错1
ERROR, don't recognize parameter: --no_salmon Please review usage info for accepted parameters.
#解决办法
--left --right 有多个reads时出现,运用--samples_file [file]替换 --right --left 参数
参考:https://github.com/trinityrnaseq/trinityrnaseq/issues/1084
#报错2
repeated errors with Inchworm
#解决办法
改小--max_memory参数无效,增添参数 --min_kmer_count 2 解决
参考:https://github.com/trinityrnaseq/trinityrnaseq/issues/647

docker安装参考:Ubuntu 20.04 安装 docker 详解_s清风s的博客-CSDN博客_ubuntu docker

#过滤转录本序列

trinity生成trinity_out_dir.Trinity.fasta文件 cp至PASA工作文件夹并命名为Trinity.fasta

~/anaconda3/envs/PASA/opt/pasa-2.5.2/bin/seqclean Trinity.fasta

生成文件

#PASA将Trinity组装结果回帖到参考基因组ls

nohup ~/anaconda3/envs/PASA/opt/pasa-2.5.2/Launch_PASA_pipeline.pl -c alignAssembly.config -C -R -g Halful.fa -t Trinity.fasta.clean -T -u Trinity.fasta --ALIGNERS blat,gmap --CPU 30 &

#alignAssembly.config设置

vi alignAssembly.config
DATABASE=/home/shuichan301/YYY/PASA_Halful/mysql_database/my_pasa_db

validate_alignments_in_db.dbi:--MIN_PERCENT_ALIGNED=80
validate_alignments_in_db.dbi:--MIN_AVG_PER_ID=80

cp ~/anaconda3/envs/PASA/opt/pasa-2.5.2/pasa_conf/pasa.annotationCompare.Template.txt annotCompare.config

#检查gff文件与PASA兼容性

~/anaconda3/envs/PASA/opt/pasa_2.5.2/misc_utilities/pasa_gff3_validator.pl orig_annotations_sample.gff3

#后缀一定要是gff3 需把gff后缀的改成gff3

#将需要更新的gff文件上传至PASA数据库

~/anaconda3/envs/PASA/opt/pasa_2.2.1/scripts/Load_Current_Gene_Annotations.dbi \
     -c alignAssembly.config -g genome_sample.fasta \
     -P orig_annotations_sample.gff3

#复制配置文件到工作目录并修改

vi annotCompare.config

DATABASE=/home/shuichan301/YYY/PASA_Halful/mysql_database/my_pasa_db

#其他数据不更改,使用默认的

#执行注释比较并生成更新的基因集

  ~/anaconda3/envs/PASA/opt/pasa_2.2.1/Launch_PASA_pipeline.pl \
        -c annotCompare.config -A \
        -g genome_sample.fasta \
        -t all_transcripts.fasta.clean

#annotCompare.config内需要修改mysql库绝对路径

生成${mysql_db}.gene_structures_post_PASA_updates.$pid.gff3, where $pid is the process ID for this annotation comparison computation.

{mysql_db}.gene_structures_post_PASA_updates.$pid.gff3作为输入 重复更新过程

参考

https://www.jianshu.com/p/29c5381c40e0

https://github.com/PASApipeline/PASApipeline/wiki/PASA_alignment_assembly
PASA(2.4.1)使用记录

https://github.com/PASApipeline/PASApipeline.wiki.git

Gene Structure Annotation and Analysis Using PASA

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值