「JCVI」如何筛选得到最优blast比对结果?

JCVI,包含了太多的功能,但是我感觉好像又没有一个特别好的说明文档(小声bb,感谢唐老师的开发的好用工具)

blast比对

未过滤的blast比对结果,所使用参数是:-outfmt 6 -max_hsps 1 -max_target_seqs 500 -num_threads 16 -evalue 1e-5 -perc_identity 70 -task megablast

Note:-max_target_seqs 500为默认参数,代表query序列最多可以保留500条不同ref序列的比对结果。

查看哪些query序列有多个比对结果

这个标题是句废话,因为我已经设置了-max_target_seqs 500

但是由于我构建的数据库只有1800左右的序列,输入序列有1700条,因此每一条query序列也不太可能出现500条这么多的结果。

# 输出有多个比对结果query序列ID
awk '{print $1}' raw.blast.txt | sort | uniq -d

现在想要得到最优的blast比对结果,我应该怎么操作?

  • 自行编写脚本,根据identity、e-value、score、pairing length等参数(×)
  • 使用JCVI(√)

过滤blast比对结果

使用如下命令,就可以得到最优blast比对结果,

python -m jcvi.formats.blast best -n 1 raw.blast.txt

JCVI过滤的标准是什么?

(1)解读源码

Produce a new blast file and filter based on:
- score: >= cutoff
- pctid: >= cutoff
- hitlen: >= cutoff
- evalue: <= cutoff
- ids: valid ids

也就是说,是基于1)比对得分、2)identity、3)联配长度、4)e-value以及自行定义的5)序列ID来得到过滤后的blast文件的。

(2)用几条序列测试一下

根据源码,已经可以得到JCVI是根据1)

那当e-value和比对得分以及比对上的长度都是相等的时候?JCVI是怎么提取对应结果的?

运气很好的是,我试了上一个部分输出的几个有多个比对结果的query ID,就找到了可以用于解析JCVI如何过滤blast比对结果的query序列。

将对应query序列的结果grep出来,保存下列文件,命名为query1.blast.txt

query1 Os01t0624000-01-E10 87.796 549 64 1 353 898 219 767 0.0 640
query1 Os01t0624000-04-E6 87.796 549 64 1 353 898 276 824 0.0 640
query1 Os01t0624000-02-E10 87.796 549 64 1 353 898 292 840 0.0 640

运行JCVI,python -m jcvi.formats.blast best -n 1 query1.blast.txt(结果文件为query1.blast.txt.best

query1  Os01t0624000-01-E10     87.80   549     64      1       353     898     219     767     0       640

然后我的疑问出现了:为什么3条序列e-value和Score都一样?为什么JCVI选择了第一条?

Note:上述3种比对结果的联配长度是一样的,均为548

  • 与比对到参考序列上的起始位置有关,即选择起始位置最前的比对结果
  • 与参考序列的ID有关
测试1:起始位置

文件修改为如下,保存为test1.blast.txt

query1 Os01t0624000-01-E10 87.796 549 64 1 353 898 219 767 0.0 640
query1 Os01t0624000-01-E10 87.796 549 64 1 353 898 192 740 0.0 640

运行JCVI,python -m jcvi.formats.blast best -n 1 test1.blast.txt,查看该命令的结果文件:

query1  Os01t0624000-01-E10     87.80   549     64      1       353     898     192     740     0       640

需要注意的是,终端输出的命令为:sort -k1,1 -k12,12gr test2.blast.txt -o test1.blast.txt

再使用JCVI之前,就已经进行了输入文件的排序。

排序后文件的第一行,对应了最终的过滤文件 —— 也就是说后续等参数的过滤都是基于排序后的文件

query1 Os01t0624000-01-E10 87.796 549 64 1 353 898 192 740 0.0 640
query1 Os01t0624000-01-E10 87.796 549 64 1 353 898 219 767 0.0 640
测试2:序列ID

文件修改为如下格,保存为test2.blast.txt

query1 Os01t0624000-04-E6 87.796 549 64 1 353 898 219 767 0.0 640
query1 Os01t0624000-01-E10 87.796 549 64 1 353 898 219 767 0.0 640

使用JCVI过滤得到的重排后的文件以及结果如下,

# sorted file
query1 Os01t0624000-01-E10 87.796 549 64 1 353 898 219 767 0.0 640
query1 Os01t0624000-04-E6 87.796 549 64 1 353 898 219 767 0.0 640
# filter result
query1  Os01t0624000-01-E10     87.80   549     64      1       353     898     219     767     0       640

题外话

办公时间段摸鱼。
JCVI这个名字,到底怎么取出来的?是唐老师自己取的吗?
打开bing一搜,最上面一条的搜索结果引起了我的注意,

这名字,我是不是在哪里看到过???

打开bilibili —— 打开鬼谷老师的频道 —— 点开【科学八卦史】他以一人之力碾压全球科学家,让资本沦为自己的提款机,却这期节目。

哇, A m a z i n g 哇,Amazing 哇,Amazing

原来是发明鸟枪测序法的爷 —— John Craig Venter

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Usage: /home/chenlianfu/chenlianfu_scripts/blast.pl [options] BLAST_DB file.fasta > out.txt --tmp-prefix default: blast 设置临时文件或文件夹前缀。默认设置下,程序生成command.blast.list,blast.tmp/等临时文件或目录。 --chunk default: 10 设置每个数据块的序列条数。程序会将输入FASTA文件中的序列从前往后分割成多份,每10条相邻的序列分配到一个FASTA文件中;在blast.tmp/临时文件夹下生成次级文件夹,每个文件夹做多放置10个FASTA文件;每个fasta文件写出一条BLAST命令到command.blast.list文件中;然后程序调用ParaFly进行并行化计算。 请注意:若数据块的数量超过100万个,默认设置下blast.tmp/文件夹中的目录数量太多(超过1万个),导致文件系统运行缓慢,ParaFly程序运行效率低下,无法充分利用服务器计算资源。此时推荐设置--chunk参数值为100。 --blast-program default: blastp 设置运行的BLAST命令,支持的命令有:blastn, blastp, blastx, tblastn, tblastx。 --CPU default: 1 设置并行运行的BLAST程序个数。 --blast-threads default: 1 设置BLAST命令的-num_threads参数值。该参数让每个BLAST命令可以多线程运行。 请注意:--blast-threads参数值和--CPU参数值的乘积不要超过服务器的CPU总计算线程数。 --evalue default: 1e-3 设置BLAST命令的-evalue参数值。 --outfmt default: 5 设置BLAST命令的-outfmt参数值。输出方式。若为5,则输出xml格式结果,若为6或7,则输出表格结果。 --max-target-seqs default: 20 设置BLAST命令的-max_target_seqs参数值。该参数设置BLAST最多能匹配数据库中的序列数量。 -clean 若添加该参数,则在运行程序成功后,会删除临时文件或文件夹。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值