Blast结果的详细解析

Blast结果的详细解析

要使用程序对blast结果进行解析、分析,就必须对BLAST的结果形式有深入的了解,本篇文章将向你详细说明Blast结果的数据结构,供参考。这里的指的是blast默认的结果,也是我们应用最多的结果。

3.14.1. 结果文件的结构

一个BLAST的结果文件,大致结构如下:
每个blast结果文件都以固定的header开头,里面包含了BLAST程序名称,版本与Reference信息。接下来包含一个或多个Query,每个query包含以下内容:
Query information
Sequences producing significant alignments
Subjects
Query information是对一个query 序列的基本信息描述,Sequences producing significant alignments是对所有subjects的简要list。每个subjects是query序列在数据库中比对上的一条序列。

3.14.2. HEADER

每个blast结果文件都以固定的header开头,里面包含了BLAST程序名称,版本与Reference信息。

blast结果解读-header

blast结果解读-header

3.14.3. QUERY

每个blast结果文件包含一个或多个Query,每个query包含以下内容:
Query information
Sequences producing significant alignments
Subjects

blast结果解读-Query

blast结果解读-Query

3.14.4. QUERY INFORMATION

Query information是对一个query 序列的基本信息描述。该部分包括
 Name:Fasta序列对于序列描述的部分(见本文档section1.2部分说明)
 Accession:接收号,或者location
 Description:序列描述
 Length:序列的长度
 Database:用户使用的数据库信息

3.14.5. SEQUENCES PRODUCING SIGNIFICANT ALIGNMENTS

该处的信息是所有subjects的简要list。

blast结果解读-subjects list

blast结果解读-subjects list

3.14.6. SUBJECTS

每个subjects是query序列在数据库中比对上的一条序列。每个subject部分包括
 Subject序列信息
 一个或多个alignment

3.14.7. SUBJECT序列信息

Subject序列信息包括该序列的:
 Name:Fasta序列对于序列描述的部分
 Accession:接收号,或者location
 Description:序列描述
 Length:序列的长度

BLAST-subjects

BLAST-subjects

3.14.8. ALIGNMENT

一个query序列和一个subject序列的比对结果,可能是一个或多个alignment,每个alignment包括如下信息,其中strand,frame和positives三项,随着所用blast程序的不同而有变动:
 Score:281
 Expect:2e-54
 Percent_identity
 Identities
 bits :110
 Length
 Mismatches= Length – Identities
 Gaps:为空时,Gaps=0
 Strand (blastn)
 Frame (blastx,tblastn,tblastx)
 Positives (blastp, blastx,tblastn,tblastx)
 Query_start
 Query_end
 Subject _start
 Subject _end

BLAST-subjects

BLAST-subjects

3.14.9. 数据结构总结

比对结果分三个层次
Query下面有一个或者多个Subject,一个Subject下面有多个Alignments。
Query 从“Query=” 开始到下一个 “Query=”或者文件结束
Subject 从“>”开始到下一个“>”或者“Query=”或者文件结束
Alignment 从“Score =”开始到下一个“Score =”或“>”或者“Query=”或者文件结束。

BLAST-数据结构

BLAST-数据结构

  • 2
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
Usage: /home/chenlianfu/chenlianfu_scripts/parsing_blast_result.pl [options] blast.out > blast.tab 对BLAST的xml或tab格式的结果进行解析和过滤,得到更准确的BLAST结果。结果为表格形式(BLAST outfmt6),结果按query序列的ID排序,每个query序列的比对结果按得分排序。 --type default: xml 设置输入BLAST结果文件的类型。可以设置为xml或tab两种类型。 若是tab格式,则BLAST结果中没有query与subject的序列长度信息,默认设置下无法使用--subject-coverage和--query-coverage参数的覆盖率阈值对结果进行过滤。在设置--db-subject输入数据库FASTA文件后可以使用--subject-coverage参数进行过滤;在设置--db-query输入query序列FASTA文件后可以使用--query-coverage参数进行过滤。 若是xml格式,结果文件中包含query和subject长度信息,从而不需要使用--db-subject和--db-query参数输入FASTA序列文件。 --no-header 添加该参数则不输出表头。 --max-hit-num default: 20 设置允许的最大hit数量。 --evalue default: 1e-5 设置HSP的evalue阈值。 --identity default: 0.05 设置HSP的identity阈值。 --CIP default: 0.2 设置cumulative identity percentage阈值(这里依然使用了比值,单位不是%,所以其值要设置不大于1,默认值0.2表示20%阈值),对Hit进行过滤。CIP = 所有HSPs的一致位点之和 / 所有HSPs的比对长度之和。 --subject-coverage default: 0.2 设置所有HSPs对subject序列总体的覆盖率阈值。该参数阈值在文献中也被称为CALP(cumulative alignment length percentage),即 sum of all HSPs / subject length。 --db-subject 输入数据库的FASTA文件,以获取subject序列长度信息。 --query-coverage default: 0.2 设置所有HSPs对query序列总体的覆盖率阈值。该参数阈值在文献中也被称为CALP(cumulative alignment length percentage),即 sum of all HSPs / query length。 --db-query 输入query序列的FASTA文件,以获取query序列长度信息。 --percentage-of-top-bitscore default: 100 使用bitscore得分对hit进行过滤,设置输出hits的bitscore得分和最高得分相差不超过最高得分的百分数。hit若有多个HSPs,则取最高的HSP得分作为hit的得分;若数据库非常大,则推荐将设置该参数值设置为10,则能极大减少比对结果,保留最准确的结果;若数据库比较小,则推荐设置该参数值为50,或使用默认值;使用该参数来减少比对结果,优于仅使用最优比对结果。 --HSP-num default: max 若一个hit有多个HSPs,该参数设置输出得分指定数目个最高的HSPs。默认输出所有的HSPs。 --out-hit-confidence 添加该参数,则在表格结果第13、14和15列分别输出Hit的CIP、CALP_query、CALP_subject值。 --suject-annotation 若--type参数的值是xml,添加该参数可以生效,则额外增加最后一列suject annotation注释结果。
数据来源:中经数据库 主要指标110多个(全部都是纯粹的 市辖区 指标),大致是: GDP GDP增速 第一产业增加值占GDP比重 第二产业增加值占GDP比重 第三产业增加值占GDP比重 人均GDP 社会消费品零售总额 固定资产投资(不含农户) 新设外商投资企业数_外商直接投资 实际利用外资金额(美元) 一般公共预算收入 一般公共预算支出 一般公共预算支出_教育 一般公共预算支出_科学技术 金融机构人民币各项存款余额_个人储蓄存款 金融机构人民币各项存款余额 金融机构人民币各项贷款余额 规模以上工业企业单位数 规模以上工业企业单位数_内资企业 规模以上工业企业单位数_港澳台商投资企业 规模以上工业企业单位数_外商投资企业 规模以上工业总产值 规模以上工业总产值_内资企业 规模以上工业总产值_港澳台商投资企业 规模以上工业总产值_外商投资企业 规模以上工业企业流动资产合计 规模以上工业企业固定资产合计 规模以上工业企业利润总额 规模以上工业企业应交增值税 规模以上工业企业主营业务税金及附加 户籍人口数 年均户籍人口数 户籍人口自然增长率 第一产业就业人员占全部城镇单位就业人员比重 第二产业就业人员占全部城镇单位就业人员比重 第三产业就业人员占全部城镇单位就业人员比重 城镇非私营单位就业人员数 城镇非私营单位就业人员数_第一产业 城镇非私营单位就业人员数_第二产业 城镇非私营单位就业人员数_第三产业 城镇非私营单位就业人员数_农、林、牧、渔业 城镇非私营单位就业人员数_采矿业 城镇非私营单位就业人员数_制造业 城镇非私营单位就业人员数_电力、热力、燃气及水生产和供应业 城镇非私营单位就业人员数_建筑业 城镇非私营单位就业人员数_批发和零售业 城镇非私营单位就业人员数_交通运输、仓储和邮政业 城镇非私营单位就业人员数_住宿和餐饮业 城镇非私营单位就业人员数_信息传输、软件和信息技术服务业 城镇非私营单位就业人员数_金融业 城镇非私营单位就业人员数_房地产业 城镇非私营单位就业人员数_租赁和商务服务业 城镇非私营单位就业人员数_科学研究和技术服务业 城镇非私营单位就业人员数_水利、环境和公共设施管理业 城镇非私营单位就业人员数_居民服务、修理和其他服务业 城镇非私营单位就业人员数_教育 城镇非私营单位就业人员数_卫生和社会工作 城镇非私营单位就业人员数_文化、体育和娱乐业 城镇非私营单位就业人员数_公共管理、社会保障和社会组织 城镇非私营单位在岗职工平均人数 城镇就业人员数_私营企业和个体 城镇非私营单位在岗职工工资总额 城镇非私营单位在岗职工平均工资 城镇登记失业人员数 建成区面积 建设用地面积 建设用地面积_居住用地 液化石油气供气总量 液化石油气供气总量_居民家庭 人工煤气、天然气供气总量 人工煤气、天然气供气总量_居民家庭 液化石油气用气人口 人工煤气、天然气用气人口 城市公共汽电车运营车辆数 城市出租汽车运营车辆数 城市公共汽电车客运总量 道路面积 排水管道长度 建成区绿化覆盖面积 建成区绿化覆盖率 绿地面积 公园绿地面积 维护建设资金支出 土地面积 生活用水供水量 供水总量 全社会用电量 城乡居民生活用电量 工业生产用电量 房地产开发投资 房地产开发投资_住宅 限额以上批发和零售业法人单位数 限额以上批发和零售业商品销售总额 普通中学学校数 中等职业教育学校数 普通小学学校数 普通高等学校专任教师数 普通中学专任教师数 中等职业教育专任教师数 普通小学专任教师数 普通高等学校在校生数 普通中学在校生数 中等职业教育在校生数 普通小学在校生数 电视节目综合人口覆盖率 公共图书馆总藏量_图书 医疗卫生机构数_医院和卫生院 卫生人员数_执业(助理)医师 医疗卫生机构床位数_医院和卫生院 城镇职工基本养老保险参保人数 职工基本医疗保险参保人数 失业保险参保人数
### 回答1: 要查看BLAST(Basic Local Alignment Search Tool)的结果,您需要按照以下步骤进行操作: 1. 打开您的BLAST搜索结果页面,您将看到一张表格,其中包含有关您的查询序列和匹配序列的信息。 2. 在结果页面上,您将看到有关每个匹配的统计信息,例如匹配的得分、匹配的长度、匹配的相似性和匹配的标识性等。 3. 您还可以查看比对的序列。通常,您将看到在匹配序列和查询序列之间的线性比对,其中相同的氨基酸或核苷酸用相同的颜色进行突出显示。 4. 如果您需要下载结果,请查看结果页面上的下载选项,并选择您需要下载的文件格式。 5. 您还可以根据需要对结果进行过滤和排序。例如,您可以按照匹配得分、匹配长度或匹配的相似性对结果进行排序,以便更轻松地查找与您的查询序列最相似的匹配。 希望这可以帮助您查看和理解BLAST的搜索结果! ### 回答2: 在使用BLAST(基本局部序列比对搜索工具)后,可以通过多种方法查看结果。 首先,BLAST提供了网页界面,可以通过输入查询序列后点击搜索按钮,BLAST会运行并生成搜索结果页面。在网页结果中,可以看到多个信息栏,包括查询序列、匹配到的序列、比对得分、比对长度、相似性等。用户可以通过点击查询序列名或更多详细信息的链接来进一步查看每个匹配结果的详细信息。 另外,BLAST还提供了命令行接口,它允许用户通过使用命令行参数运行BLAST并将结果保存在输出文件中。用户可以指定输出格式为文本(例如CSV或XML),然后通过打开输出文件来查看结果。此外,一些BLAST程序还支持直接在终端显示结果。 除了BLAST自带的界面和命令行接口外,还有一些第三方工具可用于可视化和解释BLAST结果。例如,NCBI的BLAST在线工具提供了交互性更强、更直观的结果浏览功能。另外,也有一些开源软件如BioPython库和Bioconductor包可用于处理和分析BLAST结果。 总之,查看BLAST结果可以通过BLAST的网页界面、命令行接口、第三方工具等多种方式实现。用户可以根据自己的需求和偏好选择合适的方法来查看和解释BLAST结果。 ### 回答3: 要查看BLAST(Basic Local Alignment Search Tool)的结果,可以按照以下步骤进行。 首先,你需要进行BLAST分析并获得结果。这可以通过在NCBI(National Center for Biotechnology Information)网站上使用BLAST工具来完成。在网站上选择适当的BLAST程序(如BLASTn用于核酸序列比对,BLASTp用于蛋白质序列比对等)并将你的查询序列输入到相应的框中。设置好参数,例如数据库选择和期望得分阈值等。 提交查询后,BLAST会开始运行分析,并显示一个结果页面。你可以在结果页面上找到各种信息。 首先,你会看到一个总览,其中包含查询序列的信息,匹配到的序列数量以及最佳匹配的序列。这可以让你了解到BLAST的总体情况。 下一部分是比对结果表格,其中列出了匹配到的序列及其相关信息。这些信息通常包括序列的名称、匹配到的区域长度、匹配的分数以及比对的相似性等。你可以通过点击每个序列的链接来查看详细的比对结果。 在比对结果中,你还可以查看图形化的比对图。这些图可以帮助你更直观地了解查询序列和目标序列的比对情况。 此外,还可以在结果页面上使用筛选和排序功能来定制显示的结果。例如,你可以按照分数降序排列结果,或根据特定的匹配特征进行筛选。 最后,你可以下载或保存结果以便后续分析。BLAST结果通常以文本文件或HTML格式提供,你可以将其保存到本地计算机。 总的来说,在BLAST结果页面上你可以找到关于查询序列匹配的详细信息,包括匹配的序列和其相关特征。你可以进一步分析这些信息,以了解与查询序列相似或相关的其他序列。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值