记和blast死磕的一天

在家办公耽搁了很多事情,上级催结果,慌忙把RNA-seq的分析结果交过去,然后我心心念念的gene-fusion拖了好久,gene-fusion的操作步骤,后面我做出来了就更新,现在先记录一个我今天遇到的俩大坑,有一个至今没有解决,渴望被解救。。。

因为做gene-fusion必须从ncbi下载blast的nt*、human_genomic*、other_genomic*的数据,我登录进数据库就真的惊呆了,ftp://ftp.ncbi.nlm.nih.gov/blast/db/里面并没有human_genomic*、other_genomic*,这是我至今都搞不清楚的事情,四处百度谷歌都没找到答案。

我以为是我页面显示有问题,好吧,不是说blast+可以在线建库嘛,我就安装一个呗,反正就是下载解压缩,太容易了,详情参考大神:https://www.jianshu.com/p/08a77eee8943

安装好了,我就现场来一个update_blastdb.pl nt

结果报错:“error while loading shared libraries:libssl.so.0.0.1.....”,看截图:

亏的我还一顿conda libgcc安装,都不管用,后面黔驴技穷,吃点点心休息时候,猛然发现前面“/usr/bin/curl”,我忽然灵机一动,不对呀,我curl分明是安装在conda底下,不会在usr下面呀

于是,直接编辑perl文件,vi update_blastdb.pl

发现里面的 curl地址是默认(划线部分)的/usr/bin/curl替换成自己的路径就可以了,不懂得可以直接which perl

好吧,有一个坑已经出来了,还有一个,我也不懂了,就是perl update_blastdb.pl --showall可以看到所有库,按理说会有human_genomics和other_genomics,别的大神都是这么说的,我这里就不行,和我在线看到的文件一摸一样,截图如下:

难道是blastdb更新了?反正都说用tophat-fusion都要用blast的三个库,我只能找到一个,剩下的,就只好看一个能不能得到结果了,暴风哭泣。。。。。。

我特地去blast官网下载了最新的blastdbv5.pdf,官方在2020.2.14给出的数据库就上面截图那几个,而且blastn比对的数据库就是nt,用taxid限制分类human (taxid 9606),命令:

blastn –db nt –query QUERY –taxids 9606 –outfmt 7 –out OUTPUT.tab

好,就我的认知范围,我认为nt就是涵盖了各物种,应该足够我得到我想要的gene-fusion,借平台祈求我今天能下载下数据,这两天可以跑出结果,再分享博文。

以上都是我的理解,渴望有哪个大神可以给我一点点提示,感激不尽,嘤嘤嘤

对了,透露一下,马上三十岁生日了,打算给自己送的生日礼物是:辞职重返校园,脱产读博四年。。。。特别希望有人能够给我这种大妈级别读博的人一点建议,哪怕嘲笑一下我的智商也行。特别要在线感谢老公独自扛住还房贷、养孩子的所有压力,还有我亲娘承担我这四年所有开销,你们都辛苦了,会更加爱你们哟!!!!

 

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Usage: /home/chenlianfu/chenlianfu_scripts/blast.pl [options] BLAST_DB file.fasta > out.txt --tmp-prefix default: blast 设置临时文件或文件夹前缀。默认设置下,程序生成command.blast.list,blast.tmp/等临时文件或目录。 --chunk default: 10 设置每个数据块的序列条数。程序会将输入FASTA文件中的序列从前往后分割成多份,每10条相邻的序列分配到一个FASTA文件中;在blast.tmp/临时文件夹下生成次级文件夹,每个文件夹做多放置10个FASTA文件;每个fasta文件写出一条BLAST命令到command.blast.list文件中;然后程序调用ParaFly进行并行化计算。 请注意:若数据块的数量超过100万个,默认设置下blast.tmp/文件夹中的目录数量太多(超过1万个),导致文件系统运行缓慢,ParaFly程序运行效率低下,无法充分利用服务器计算资源。此时推荐设置--chunk参数值为100。 --blast-program default: blastp 设置运行的BLAST命令,支持的命令有:blastn, blastp, blastx, tblastn, tblastx。 --CPU default: 1 设置并行运行的BLAST程序个数。 --blast-threads default: 1 设置BLAST命令的-num_threads参数值。该参数让每个BLAST命令可以多线程运行。 请注意:--blast-threads参数值和--CPU参数值的乘积不要超过服务器的CPU总计算线程数。 --evalue default: 1e-3 设置BLAST命令的-evalue参数值。 --outfmt default: 5 设置BLAST命令的-outfmt参数值。输出方式。若为5,则输出xml格式结果,若为6或7,则输出表格结果。 --max-target-seqs default: 20 设置BLAST命令的-max_target_seqs参数值。该参数设置BLAST最多能匹配数据库中的序列数量。 -clean 若添加该参数,则在运行程序成功后,会删除临时文件或文件夹。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值