blast原理与使用技巧,最全最详细

本文介绍了生物信息学中BLAST工具的基础原理,包括其不同变体如BLASTN、BLASTP等,以及如何根据序列类型和需求选择合适的工具。还详细讲解了如何创建数据库、设置参数和执行比对,以提升科研效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

BLAST 序列比对

在生物信息学领域,序列比对是一项基础而关键的任务。它帮助研究人员识别基因、理解蛋白质功能,并揭示物种之间的进化关系。

本文旨在介绍BLAST(Basic Local Alignment Search Tool)的原理及其不同变体,如BLASTN、BLASTP、BLASTX、TBLASTN和TBLASTX,以及它们的使用技巧。

BLAST的基本原理

BLAST是由美国国立卫生研究院(NIH)开发的一种用于比对核酸或蛋白质序列的工具,其基本原理是通过局部序列比对来发现两个序列之间的相似性。

BLAST首先将查询序列与数据库中的序列进行快速比对,找出潜在的匹配区域,然后通过更精确的算法计算这些区域的相似性得分,最后返回评分最高的匹配。

不同类型的BLAST

BLASTN:

用于比对两个核酸序列。它主要用于寻找DNA序列之间的相似性。

BLASTP:

专门用于比对蛋白质序列。它可以帮助识别具有相似结构和/或功能的蛋白质。

BLASTX:

将核酸序列(通常是DNA)转录成蛋白质序列,并与蛋白质数据库进行比对。这对于发现基因编码的蛋白质特别有用。

TBLASTN:

将蛋白质序列与核酸序列数据库(这些序列会被转换成蛋白质)进行比对。这在寻找某蛋白质可能的基因时非常有用。

TBLASTX:

比对两个核酸序列,但在比对之前,这两个序列都会被转换成蛋白质序列。这对于寻找在两种不同物种中编码相似蛋白的基因非常有价值。

使用方法与技巧

建立检索所需数据库

BLAST数据库分为两类,核酸数据库和氨基酸数据库,可以用makeblastbd命令进行创建。

$ makeblastdb -help
USAGE
  makeblastdb [-h] [-help] [-in input_file] [-input_type type]
    -dbtype molecule_type [-title database_title] [-parse_seqids]
    [-hash_index] [-mask_data mask_data_files] [-mask_id mask_algo_ids]
    [-mask_desc mask_algo_descriptions] [-gi_mask]
    [-gi_mask_name gi_based_mask_names] [-out database_name]
    [-max_file_sz number_of_bytes] [-logfile File_Name] [-taxid TaxID]
    [-taxid_map TaxIDMapFile] [-version]
-dbtype <String, `nucl', `prot'>

选择blast工具

根据不同的需求,比如说你用的序列是氨基酸还是核苷酸,你要查找的数据是核甘酸还是氨基酸,选择合适的blast工具。

选择参数

-db : 数据库在本地的位置

-query: 检索文件

-query_loc : 指定检索的位置

-strand: 搜索正义链还是反义链

-out : 输出文件

-remote: 可以用NCBI的远程数据库

-evalue 科学计数法,定义期望值阈值。

E值表明在随机的情况下,其它序列与目标序列相似度要大于这条显示的序列的可能性。

  1. E值适合于有一定长度,而且复杂度不能太低的序列。

  2. 当E值小于10-5时,表明两序列有较高的同源性,而不是因为计算错误。

  3. 当E值小于10-6时,表时两序列的同源性非常高.

运行blast

blastn -db BLAST/xxx -query query.fa

默认输出选项有18种类型,使用outfmt控制,可以根据情况选择:

0 = Pairwise,
1 = Query-anchored showing identities,
2 = Query-anchored no identities,
3 = Flat query-anchored showing identities,
4 = Flat query-anchored no identities,
5 = BLAST XML,
6 = Tabular,
7 = Tabular with comment lines,
8 = Seqalign (Text ASN.1),
9 = Seqalign (Binary ASN.1),
10 = Comma-separated values,
11 = BLAST archive (ASN.1),
12 = Seqalign (JSON),
13 = Multiple-file BLAST JSON,
14 = Multiple-file BLAST XML2,
15 = Single-file BLAST JSON,
16 = Single-file BLAST XML2,
17 = Sequence Alignment/Map (SAM),
18 = Organism Report

BLAST是一种功能强大且多用途的序列比对工具,正确地选择BLAST类型并合理调整参数,可以大大提高研究的准确性和效率。如果感觉本文有用,欢迎转发分享。

本文由mdnice多平台发布

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

生信分析笔记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值