pasa_example

#陈老师的样例数据

ln -s /opt/00.incipient_data/data_for_genome_assembling/assemblies_of_Malassezia_sympodialis/Malassezia_sympodialis.genome_V01.fasta genome.fasta

# 将 RNA-Seq de novo 组装序列和 genome-guided 组装序列合并到一个文件中
cat /opt/00.incipient_data/data_for_gene_prediction_and_RNA-seq/Trinity*fasta > transcripts.fasta
perl -e 'while (<>) { print "$1\n" if />(\S+)/ }' /opt/00.incipient_data/data_for_gene_prediction_and_RNA-seq/Trinity.fasta > tdn.accs

# 对 transcripts 序列进行 end-trimming (vector, adaptor, primer, polyA/T tails)
seqclean transcripts.fasta -v /opt/biosoft/PASApipeline-v2.3.3/UniVec/UniVec
# real    2m32.771s
# user    2m32.096s
# sys    0m1.013s

# 生成比对配置文件

cp /opt/biosoft/PASApipeline-v2.3.3/pasa_conf/pasa.alignAssembly.Template.txt alignAssembly.config
DATE=`date +%Y%m%d`
User=`whoami`
echo "perl -p -i -e 's/DATABASE=.*/DATABASE=pasa_${DATE}_$User/' alignAssembly.config" | sh

# 生成 mysql 数据库及表

/opt/biosoft/PASApipeline-v2.3.3/scripts/create_mysql_cdnaassembly_db.dbi -r -c alignAssembly.config -S /opt/biosoft/PASApipeline-v2.3.3/schema/cdna_alignment_mysqlschema

# 运行 PASA 主程序,将 transcripts 序列比对到基因组上,得到去冗余的转录子序列、转录子和基因组的比对结果和可变剪接信息

/opt/biosoft/PASApipeline-v2.3.3/Launch_PASA_pipeline.pl -c alignAssembly.config -R -g genome.fasta -t transcripts.fasta.clean -T -u transcripts.fasta --ALIGNERS gmap,blat --CPU 8 --stringent_alignment_overlap 30.0 --TDN tdn.accs --MAX_INTRON_LENGTH 20000 --TRANSDECODER &> pasa.log
# real    10m21.260s
# user    14m48.870s
# sys    2m14.255s
# 链特异性测序需要加入参数 --transcribed_is_aligned_orient
# 真菌等小基因组,由于基因比较稠密,需要加入参数 --stringent_alignment_overlap

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值