外显子 分析

Hands-on: Exome sequencing data analysis for diagnosing a genetic disease / Exome sequencing data analysis for diagnosing a genetic disease / Variant Analysis

https://galaxyproject.github.io/training-material/topics/variant-analysis/tutorials/exome-seq/tutorial.html#generating-a-gemini-database-of-variants-for-further-annotation-and-efficient-variant-queries

Exome sequencing data analysis for diagnosing a genetic disease

1. 数据准备

原文内容细化
  • 测序数据通常是高通量测序仪生成的 FASTQ 文件,里面包含了成千上万个 DNA 碱基片段(reads),每个片段都有它的碱基序列和测序质量分值(Phred 分值)。
  • 为什么需要质量控制?
    测序过程可能因为技术问题导致错误,比如某些片段测序不完整或错误读出碱基。这些低质量的数据如果直接进入分析流程,可能会导致错误的变异检测结果。
  • 质量控制步骤:
    通过工具(如 FastQC)查看每个样本的碱基质量分布、GC 含量和序列长度。如果发现低质量序列(Phred 分值低于 20 或 30),需要用 Trimmomatic 等工具剪切或去除。
通俗类比
  • 数据准备就像在图书馆拿到一本书之前,先检查书页是否完整。如果有破损的页面,就需要先修复或更换。

2. 对齐序列

原文内容细化
  • 目的:
    将测序的 DNA 片段(reads)正确地匹配到参考基因组上的对应位置,这样才能识别样本中与参考的差异。
  • 对齐工具:
    本教程推荐 BWA-MEM,它是一种高效的比对算法,可以处理短读长和长读长数据。
    • BWA-MEM 会根据每个 DNA 片段的序列特点,找到它最有可能匹配的位置,并计算比对得分(alignment score)。
    • 如果一个片段匹配多个位置(重复区域),得分最高的位置将作为最佳匹配。
  • 结果文件(BAM 文件):
    BAM 文件是对齐结果的压缩格式,里面记录了每个片段的位置、比对质量等详细信息。
通俗类比
  • 对齐序列就像把一页散落的拼图按正确的顺序拼回到原来的图案上。参考基因组就是这个图案的模板。

3. 变异检测(FreeBayes 工具)

原文内容细化
  • FreeBayes 的特点:
    这是一种基于贝叶斯统计模型的工具,专门用于检测基因组上的多种变异类型。它不仅能检测单碱基变异(SNP),还可以识别小的插入(Insertion)和缺失(Deletion)。
  • 分析原理:
    FreeBayes 会从对齐的 BAM 文件中读取每个位置的碱基信息,并根据每个碱基的频率、质量和支持的片段数量来评估变异是否存在。
    • SNP:某个位置的碱基与参考基因组不同。
    • Indel:某个位置有额外的碱基插入或缺失。
  • 参数设置:
    用户可以调整变异检测的参数,比如最小支持深度(minimum depth)和最小质量阈值,以减少假阳性结果。
通俗类比
  • 使用 FreeBayes 就像用放大镜观察一本书的每一个字母,检查哪些字母跟原来的标准文本不一样。

4. 数据过滤与注释

原文内容细化
  • 过滤:
    检测出的变异可能有误,比如由于测序错误导致的假阳性。因此,需要通过设定质量分值(QUAL)和深度(Depth)的阈值,剔除低可信度的变异。
  • 注释:
    通过工具(如 SnpEff 或 VEP),为每个变异添加生物学信息,包括:
    • 变异的位置(是否在外显子区域或调控区域)。
    • 变异对蛋白的影响(是否改变了氨基酸序列)。
    • 是否与已知的疾病或功能相关。
  • 输出:
    注释完成后会生成一个新的变异文件,里面包含每个变异的详细描述和可能的生物学意义。
通俗类比
  • 过滤和注释就像对发现的错别字进行分类,判断哪些是真的错误,哪些可能是作者的特殊用法,同时标注这些错字对故事理解的影响。

5. 分析与可视化

原文内容细化
  • 工具:
    IGV(Integrative Genomics Viewer)是一种常用的基因组浏览工具,可以让用户直观地查看每个变异的位置和周围的上下文信息。
  • 查看内容:
    • 是否有足够的测序深度支持检测到的变异。
    • 变异附近是否有结构复杂的区域(如重复序列)。
    • 变异是否可能与其他区域的变异有关。
  • 可视化:
    可以生成覆盖深度图和序列比对图,帮助验证结果的可靠性。
通俗类比
  • 分析与可视化就像在地图上标出所有的异常位置,然后用放大镜仔细检查每个位置,看看是不是有问题。

二  框架

文献名称

  1. 英文原名:Exome Sequencing and Variant Analysis with Galaxy
  2. 中文翻译:使用 Galaxy 平台进行外显子组测序和变异分析

1. 基本信息

1.1 文献名称

  • 英文:Exome Sequencing and Variant Analysis with Galaxy
  • 中文:使用 Galaxy 平台进行外显子组测序和变异分析

1.2 期刊名称,期刊最新影响因子,发表日期

  • 期刊名称:Galaxy Project Tutorial
  • 最新影响因子:无,属于开源教学材料
  • 发表日期:2023 年(假设年份,具体可确认)

1.3 作者及通讯作者单位

  • 作者:Galaxy Project
  • 单位:Galaxy 项目组

1.4 链接

1.5 PMID 编码

  • 无 PMID 编码

1.6 关键词

  • 外显子组测序:通过高通量测序技术,专注分析基因组中的外显子区域,检测基因变异。
  • 变异分析:寻找 SNP 和 Indel 等基因组上的结构变化,理解它们的生物学意义。
  • FreeBayes:一种基于贝叶斯模型的变异检测工具,专注于单核苷酸变异(SNP)和小插入/缺失(Indel)。
  • Galaxy 平台:一个开放、可视化的生物信息学分析平台,支持多种分析流程,无需编程经验。

2. 文章概述

2.1 目的

  • 教授如何利用 Galaxy 平台和 FreeBayes 工具,从外显子组测序数据中检测基因变异,掌握完整分析流程。

2.2 方法

  • 使用高质量测序数据(FASTQ 格式),结合 Galaxy 提供的图形化工具(如 BWA、FreeBayes 和 SnpEff),完成数据质量控制、比对、变异检测和注释。

2.3 结果

  • 生成变异文件(VCF 格式),并通过可视化工具(如 IGV)验证检测到的变异。

2.4 结论

  • Galaxy 平台提供了一个简化的外显子组分析流程,使科研人员能够快速开展变异研究。

3. 研究背景 / 引言

What is known

  • 外显子组测序专注于基因组中功能性区域,是发现致病性基因变异的重要技术手段。
  • 传统的变异检测工具要求编程技能,限制了许多研究人员的使用。

What is new

  • 本教程通过 Galaxy 平台,将复杂的变异检测流程图形化,使无编程经验的用户也能轻松完成外显子组分析。

What are the implications

  • 降低学习门槛,推动变异分析在基因组学研究和临床应用中的广泛普及。

4. 研究思路

4.1 提出研究问题

  • 如何用一个无编程经验的平台完成外显子组变异检测?

4.2 构建研究框架

  • 数据准备(FASTQ 数据)
  • 序列比对(BWA-MEM)
  • 变异检测(FreeBayes)
  • 数据注释(SnpEff)
  • 结果验证(IGV)

4.3 选择研究方法

  • 采用开放的 Galaxy 平台,配合多种经典工具。

4.4 分析数据

  • 使用变异检测工具识别基因组差异,注释其功能。

4.5 得出结论

  • 本教程为变异分析提供了用户友好的解决方案。

5. 研究结果

  • 逻辑重点:验证 Galaxy 平台在外显子组变异分析中的实用性。
  • 表型:检测到多个与疾病相关的 SNP 和 Indel。
  • 机制:基于参考基因组的变异定位与注释。
  • 回补:通过工具验证结果的准确性。

6. 研究结论与讨论

6.1 研究结论

  • 使用 Galaxy 平台和 FreeBayes,可实现无编程背景的外显子组变异分析。

6.2 研究的创新性

  • 图形化流程降低技术门槛,适用于多学科研究人员。

6.3 研究的不足之处

  • 仅限于外显子区域,可能遗漏基因组其他重要变异。

6.4 研究展望

  • 未来可将流程扩展至全基因组测序(WGS)分析,增加功能区域覆盖。

6.5 研究意义

  • 推广生物信息学分析技术,加速疾病基因研究和精准医学发展。

三 galaxy基本介绍

3.1   主页

https://training.galaxyproject.org/training-material/workflows

3.2 Galaxy 平台目录:服务器、云和可部署资源 - Galaxy Community Hub --- Galaxy Platform Directory: Servers, Clouds, and Deployable Resources - Galaxy Community Hub/use/

Galaxy已整合了多个分析流程的开源工具,通过其网站即可访问使用,进入,在UseGalxy页面下是官方服务器,

点击The Galaxy Project free public server;----biomedical research的Server,即可进入免费公共的Galaxy分析平台,我选择NGS:RNA Analysis进入HISAT2分析界面,如下所示:

Galaxy_official

除了流行的分析软件,还有一些文本处理工具(勉强适合一些常规需要,毕竟大家的需求都是多样化的。。。)

除了官方的Galaxy Server外,还有一些团队/个人基于Galaxy开发的公开分析平台,可以在上述网站的Public Servers界面下找到,可以通过一些关键词找到你所需要的分析流程,如搜索proteomics,如下所示:

Galaxy_public

从中可看出Galaxy可以用于搭建定制化的生信分析平台,这点就很有意思了,其主要是提供一个平台框架,而管理员则是需要在这个平台上添加分析工具即可供他人使用,主要还是开源的。。。

image.png

开始使用 - Galaxy 社区中心 --- Get Started - Galaxy Community Hub

比如,这里找了个Metabolomics workflow
https://galaxyproject.org/use/workflow4metabolomics/

比如,这里找了个Metabolomics workflow
https://galaxyproject.org/use/workflow4metabolomics/

更多详细的资源在这个界面,旁边有非常多的工具

https://usegalaxy.org/


 

没用过,现在也不知道怎么用,尤其是部署自己的服务器,对Galaxy平台进行本地化搭建,貌似有些麻烦,后续有机会摸索。

此外,在Github上收集了不少Galaxy Training的内容,资源不是一般多,关键怎么利用的问题。https://galaxyproject.github.io/training-material/

仅仅Proteomics就有一系列内容https://galaxyproject.github.io/training-material/topics/proteomics/


 

实操

WES学习2:外显子测序分析——小男孩的硬骨化病基因突变_wes测序,预测突变基因与疾病关系,生信怎么做-CSDN博客

refer:

【工具】Galaxy(training)生信平台资源-简书

Galaxy生信分析平台-搭建(本地化) | KeepNotes blog

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值