Hands-on: Exome sequencing data analysis for diagnosing a genetic disease / Exome sequencing data analysis for diagnosing a genetic disease / Variant Analysis
Exome sequencing data analysis for diagnosing a genetic disease
1. 数据准备
原文内容细化
- 测序数据通常是高通量测序仪生成的 FASTQ 文件,里面包含了成千上万个 DNA 碱基片段(reads),每个片段都有它的碱基序列和测序质量分值(Phred 分值)。
- 为什么需要质量控制?
测序过程可能因为技术问题导致错误,比如某些片段测序不完整或错误读出碱基。这些低质量的数据如果直接进入分析流程,可能会导致错误的变异检测结果。 - 质量控制步骤:
通过工具(如 FastQC)查看每个样本的碱基质量分布、GC 含量和序列长度。如果发现低质量序列(Phred 分值低于 20 或 30),需要用 Trimmomatic 等工具剪切或去除。
通俗类比
- 数据准备就像在图书馆拿到一本书之前,先检查书页是否完整。如果有破损的页面,就需要先修复或更换。
2. 对齐序列
原文内容细化
- 目的:
将测序的 DNA 片段(reads)正确地匹配到参考基因组上的对应位置,这样才能识别样本中与参考的差异。 - 对齐工具:
本教程推荐 BWA-MEM,它是一种高效的比对算法,可以处理短读长和长读长数据。- BWA-MEM 会根据每个 DNA 片段的序列特点,找到它最有可能匹配的位置,并计算比对得分(alignment score)。
- 如果一个片段匹配多个位置(重复区域),得分最高的位置将作为最佳匹配。
- 结果文件(BAM 文件):
BAM 文件是对齐结果的压缩格式,里面记录了每个片段的位置、比对质量等详细信息。
通俗类比
- 对齐序列就像把一页散落的拼图按正确的顺序拼回到原来的图案上。参考基因组就是这个图案的模板。
3. 变异检测(FreeBayes 工具)
原文内容细化
- FreeBayes 的特点:
这是一种基于贝叶斯统计模型的工具,专门用于检测基因组上的多种变异类型。它不仅能检测单碱基变异(SNP),还可以识别小的插入(Insertion)和缺失(Deletion)。 - 分析原理:
FreeBayes 会从对齐的 BAM 文件中读取每个位置的碱基信息,并根据每个碱基的频率、质量和支持的片段数量来评估变异是否存在。- SNP:某个位置的碱基与参考基因组不同。
- Indel:某个位置有额外的碱基插入或缺失。
- 参数设置:
用户可以调整变异检测的参数,比如最小支持深度(minimum depth)和最小质量阈值,以减少假阳性结果。
通俗类比
- 使用 FreeBayes 就像用放大镜观察一本书的每一个字母,检查哪些字母跟原来的标准文本不一样。
4. 数据过滤与注释
原文内容细化
- 过滤:
检测出的变异可能有误,比如由于测序错误导致的假阳性。因此,需要通过设定质量分值(QUAL)和深度(Depth)的阈值,剔除低可信度的变异。 - 注释:
通过工具(如 SnpEff 或 VEP),为每个变异添加生物学信息,包括:- 变异的位置(是否在外显子区域或调控区域)。
- 变异对蛋白的影响(是否改变了氨基酸序列)。
- 是否与已知的疾病或功能相关。
- 输出:
注释完成后会生成一个新的变异文件,里面包含每个变异的详细描述和可能的生物学意义。
通俗类比
- 过滤和注释就像对发现的错别字进行分类,判断哪些是真的错误,哪些可能是作者的特殊用法,同时标注这些错字对故事理解的影响。
5. 分析与可视化
原文内容细化
- 工具:
IGV(Integrative Genomics Viewer)是一种常用的基因组浏览工具,可以让用户直观地查看每个变异的位置和周围的上下文信息。 - 查看内容:
- 是否有足够的测序深度支持检测到的变异。
- 变异附近是否有结构复杂的区域(如重复序列)。
- 变异是否可能与其他区域的变异有关。
- 可视化:
可以生成覆盖深度图和序列比对图,帮助验证结果的可靠性。
通俗类比
- 分析与可视化就像在地图上标出所有的异常位置,然后用放大镜仔细检查每个位置,看看是不是有问题。
二 框架
文献名称
- 英文原名:Exome Sequencing and Variant Analysis with Galaxy
- 中文翻译:使用 Galaxy 平台进行外显子组测序和变异分析
1. 基本信息
1.1 文献名称
- 英文:Exome Sequencing and Variant Analysis with Galaxy
- 中文:使用 Galaxy 平台进行外显子组测序和变异分析
1.2 期刊名称,期刊最新影响因子,发表日期
- 期刊名称:Galaxy Project Tutorial
- 最新影响因子:无,属于开源教学材料
- 发表日期:2023 年(假设年份,具体可确认)
1.3 作者及通讯作者单位
- 作者:Galaxy Project
- 单位:Galaxy 项目组
1.4 链接
1.5 PMID 编码
- 无 PMID 编码
1.6 关键词
- 外显子组测序:通过高通量测序技术,专注分析基因组中的外显子区域,检测基因变异。
- 变异分析:寻找 SNP 和 Indel 等基因组上的结构变化,理解它们的生物学意义。
- FreeBayes:一种基于贝叶斯模型的变异检测工具,专注于单核苷酸变异(SNP)和小插入/缺失(Indel)。
- Galaxy 平台:一个开放、可视化的生物信息学分析平台,支持多种分析流程,无需编程经验。
2. 文章概述
2.1 目的
- 教授如何利用 Galaxy 平台和 FreeBayes 工具,从外显子组测序数据中检测基因变异,掌握完整分析流程。
2.2 方法
- 使用高质量测序数据(FASTQ 格式),结合 Galaxy 提供的图形化工具(如 BWA、FreeBayes 和 SnpEff),完成数据质量控制、比对、变异检测和注释。
2.3 结果
- 生成变异文件(VCF 格式),并通过可视化工具(如 IGV)验证检测到的变异。
2.4 结论
- Galaxy 平台提供了一个简化的外显子组分析流程,使科研人员能够快速开展变异研究。
3. 研究背景 / 引言
What is known
- 外显子组测序专注于基因组中功能性区域,是发现致病性基因变异的重要技术手段。
- 传统的变异检测工具要求编程技能,限制了许多研究人员的使用。
What is new
- 本教程通过 Galaxy 平台,将复杂的变异检测流程图形化,使无编程经验的用户也能轻松完成外显子组分析。
What are the implications
- 降低学习门槛,推动变异分析在基因组学研究和临床应用中的广泛普及。
4. 研究思路
4.1 提出研究问题
- 如何用一个无编程经验的平台完成外显子组变异检测?
4.2 构建研究框架
- 数据准备(FASTQ 数据)
- 序列比对(BWA-MEM)
- 变异检测(FreeBayes)
- 数据注释(SnpEff)
- 结果验证(IGV)
4.3 选择研究方法
- 采用开放的 Galaxy 平台,配合多种经典工具。
4.4 分析数据
- 使用变异检测工具识别基因组差异,注释其功能。
4.5 得出结论
- 本教程为变异分析提供了用户友好的解决方案。
5. 研究结果
- 逻辑重点:验证 Galaxy 平台在外显子组变异分析中的实用性。
- 表型:检测到多个与疾病相关的 SNP 和 Indel。
- 机制:基于参考基因组的变异定位与注释。
- 回补:通过工具验证结果的准确性。
6. 研究结论与讨论
6.1 研究结论
- 使用 Galaxy 平台和 FreeBayes,可实现无编程背景的外显子组变异分析。
6.2 研究的创新性
- 图形化流程降低技术门槛,适用于多学科研究人员。
6.3 研究的不足之处
- 仅限于外显子区域,可能遗漏基因组其他重要变异。
6.4 研究展望
- 未来可将流程扩展至全基因组测序(WGS)分析,增加功能区域覆盖。
6.5 研究意义
- 推广生物信息学分析技术,加速疾病基因研究和精准医学发展。
三 galaxy基本介绍
3.1 主页
1
https://training.galaxyproject.org/training-material/workflows
3.2 Galaxy 平台目录:服务器、云和可部署资源 - Galaxy Community Hub --- Galaxy Platform Directory: Servers, Clouds, and Deployable Resources - Galaxy Community Hub/use/
Galaxy已整合了多个分析流程的开源工具,通过其网站即可访问使用,进入,在UseGalxy页面下是官方服务器,
点击The Galaxy Project free public server;----biomedical research的Server,即可进入免费公共的Galaxy分析平台,我选择NGS:RNA Analysis进入HISAT2分析界面,如下所示:
Galaxy_official
除了流行的分析软件,还有一些文本处理工具(勉强适合一些常规需要,毕竟大家的需求都是多样化的。。。)
除了官方的Galaxy Server外,还有一些团队/个人基于Galaxy开发的公开分析平台,可以在上述网站的Public Servers界面下找到,可以通过一些关键词找到你所需要的分析流程,如搜索proteomics,如下所示:
Galaxy_public
从中可看出Galaxy可以用于搭建定制化的生信分析平台,这点就很有意思了,其主要是提供一个平台框架,而管理员则是需要在这个平台上添加分析工具即可供他人使用,主要还是开源的。。。
image.png
开始使用 - Galaxy 社区中心 --- Get Started - Galaxy Community Hub
比如,这里找了个Metabolomics workflow
:
https://galaxyproject.org/use/workflow4metabolomics/
比如,这里找了个Metabolomics workflow
:
https://galaxyproject.org/use/workflow4metabolomics/
更多详细的资源在这个界面,旁边有非常多的工具
没用过,现在也不知道怎么用,尤其是部署自己的服务器,对Galaxy平台进行本地化搭建,貌似有些麻烦,后续有机会摸索。
此外,在Github上收集了不少Galaxy Training的内容,资源不是一般多,关键怎么利用的问题。https://galaxyproject.github.io/training-material/
仅仅Proteomics
就有一系列内容https://galaxyproject.github.io/training-material/topics/proteomics/
实操
WES学习2:外显子测序分析——小男孩的硬骨化病基因突变_wes测序,预测突变基因与疾病关系,生信怎么做-CSDN博客
refer: