bam获取序列_高通量测序分析——从基因组重测序数据中获取突变信息

本文介绍了如何使用Galaxy server从全基因组重测序数据中获取突变信息,包括SNP、片段缺失和插入。通过数据上传、序列比对、去除重复序列、插入质量注释、变异位点呼叫、过滤、SnpEff注释等步骤,详细解析了突变分析流程。此外,还提到了SnpEff只能处理SNP和小片段插入缺失,而长片段需要借助其他工具如clc genomics workbench进行分析。
摘要由CSDN通过智能技术生成

目的:从全基因组重测序数据中获取突变信息,如单核苷酸碱基突变,片段缺失和插入。

工具:Galaxy server (https://usegalaxy.org/). 这是一个完全免费的在线基因组数据分析平台,上面有各种常用的生物信息学工具,用于在线处理和分析。一个普通用户的使用空间为250Gb。数据上传至服务器,在服务器上进行处理,因此对本地电脑没有要求! Galaxy的主服务器在美国,另外在欧洲和澳大利亚各有一个独立运行的服务器,Galaxy | Europe和Galaxy | Australia,不过建议使用主服务器,上面的工具是最全面的。

步骤:

一、数据准备

  1. 基因组参考序列和注释信息,即reference genome和annotation。reference genome将于对测序数据的比对和寻找突变。annotation是基因序列和蛋白序列信息,用于后续对突变的效果进行分析,如氨基酸改变,剪接位点突变等。对于常见的模式生物,galaxy已经收录了这两项内容,不需要进行准备。未收录的物种,则需要从NCBI下载相应的数据,并上传至galaxy上自己的账户中。通常已测序的物种在NCBI上有相应的基因组信息和下载链接,reference genome为一个GCF开头的.fna文件,annotation为一个GCF开头的.gff文件。通常NCBI还提供一个GCF开头的.gbff文件,它相当于将reference genome和annotation合并在一起了。后面会提到使用方法。Galaxy还提供直接从网站获取数据和通过FTP上传文件的方法,具体可以参考官网上关于Get Data的说明。
  2. 突变体的全基因组测序数据,通常为压缩包形式的fastq文件,结尾为.fq.gz。单向(s
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值