MOSim:R 中的多组学模拟2018

 

摘要

动机 随着新的综合方法被开发来分析多组学实验,需要验证策略来进行基准测试。模拟数据等计算机方法很受欢迎,因为它们快速且便宜。然而,很少有工具可用于创建合成多组学数据集。

Results MOSim是一个新的 R 包,用于轻松模拟多组学实验,其中包括基因表达数据、其他调控组学以及它们之间的调控关系。MOSim支持不同的实验设计,包括时间序列数据。

可用性 该软件包可根据 GPL-3 许可证从 Bitbucket 存储库Bitbucket ) 免费获取。

1 简介

大规模测序技术的进步有利于在同一生物系统上应用多种组学分析的实验的激增。因此,越来越需要生物信息学工具来帮助科学家处理多组学数据,包括验证新颖的集成方法和调整多组学分析流程。验证分析方法的一个常见策略是利用合成数据,研究人员定义哪些特征(例如基因)随条件变化以及这些特征如何受到其他特征(例如 microRNA)的调节。

针对特定数据类型存在多种模拟算法:compcodeR、polyester、FluxSimulator、MetaSim、dwgsim、ART,仅举几例[1]。然而,鉴于数据结构的复杂性,缺乏多组学模拟的工具。一些公开可用的算法可以模拟多种组学数据类型以及特征之间的交互[2],但允许非常有限的实验设计,并且不提供灵活且用户友好的修改监管关系的方法。

在这项工作中,我们提出了MOSim一种模拟多组学数据集的 R 算法。MOSim为不同的测序分析生成计数数据,并为实验设计提供灵活的选择。更重要的是,该工具还通过将基因调节因子的值定义为其对基因表达的调节作用(激活或抑制)的函数,来模拟将基因表达与其他组学特征(CpG 位点、转录因子、miRNA 等)联系起来的调节程序)。MOSim 是一个有用的工具,可以在获得实验数据之前测试综合方法的性能、基准分析流程,并生成用于教学目的或用户手册的示例。

2 方法

为了创建合成的多组学数据集,MOSim 需要作为输入一组要模拟的组学、每个组学的一个种子数据文件、每个基因的先验或潜在调控特征的信息以及几个配置参数(实验设计、分散度、特征数量、差异表达基因(DEG)数量等)。支持的组学数据类型包括 RNA-seq、ATAC-seq(或 DNase-seq)、ChIP-seq、miRNA-seq 和 Mmethyl-seq。如果还对转录因子 (TF) 调节进行建模,则必须指示此特征类型并包含相应的关联文件。该包包含从 STATegra 项目获得的种子数据集(GEO 登录号 GSE75395、GSE38169 和 GSE42462)以及这些数据类型和关联。用户必须提供实验设计信息,指出实验组的数量、时间点(如果适用)以及每个实验条件的重复次数。该算法的详细描述可以在补充材料中找到。

模拟从创建基因表达数据集开始。DEG 是从seed RNA-seq 样本中随机选择的。对于时间过程设计,在每个实验组中用以下模式之一标记 DEG:continuous induction (increasing linear pattern)即连续诱导(增加线性模式)、continuous repression (decreasing linear pattern)连续抑制(减少线性模式)、transitory induction (quadratic pattern with a intermediate maximum)即瞬时诱导(具有中间最大值的二次模式)、transitory repression (quadratic pattern with a intermediate minimum) and flat即瞬时抑制(具有中间最小值的二次模式)和flat平滑的非 DEG 的模式(表 1)。从种子计数值模拟表达谱以概括真实的数据分布。通过在其中一种实验条件下引入倍数变化来对具有flat profiles或病例对照设计的 DEG 进行建模。一旦为每个条件生成了基因表达值,就可以从负二项式 (NB) 分布模拟重复,其中平均值等于该条件的计数值,方差与平均值成比例。

表格1:模拟示例的 RNA-seq 设置。ID:基因标识符;DE:表示基因是否差异表达(TRUE)或无差异表达(FALSE);Group1:实验组1中基因的temporal profile时间谱;Group2:实验组 2 中基因的时间概况。

其余组学的模拟使用相同的模式定义函数,受到所提供的监督数据和随机选择的监督方向的约束。标记为激活剂的调节因子将具有与其相关基因相同的特征,但如果它们具有抑制作用,则相反(参见表2中的示例)。对于Methyl-seq甲基序列,按照[3]中描述的策略,基于二项式分布生成百分比而不是计数;而为了模拟 TF 调控,表达值是从模拟的 RNA-seq 数据中提取的。用户可以指示活跃监管者的百分比,算法验证监管网络与输入的关联数据是否一致。

表2:模拟示例的ATAC-seq设置如表1所示。ID:ATAC-seq 区域的基因组坐标(染色体以及染色质可及区域的起始和结束位置);基因:调控基因;Effect.Group1:ATAC-seq区域对实验组1基因表达的调控作用;Effect.Group2:ATAC-seq区域对实验组2基因表达的调控作用;Group1:实验组1中ATAC-seq区域的时间分布;Group2:实验组 2 中 ATAC-seq 区域的时间分布

除了MOSim模拟多组学数据集的通用包装函数 ( 、mosim) 之外,包中包含的其他有用函数还可以帮助用户修改种子数据 ( 、omicData) 或默认组学参数 ( 、omicSim) 并恢复模拟结果,如下一节所述。

3 结果

为了说明MOSim实用性,我们用 5 个时间点、2 个实验组、3 个重复和 STATegra 样本作为种子数据模拟了 RNA-seq 和 ATAC-seq 数据。MOSim 返回两种类型的输出。该omicResults函数检索一个列表,其中包含每个组学的模拟数据矩阵,其中特征在行中,观察结果在列中。使用该函数提取的第二个对象omicSettings包含用于生成每个组学数据类型的设置以及基因表达与其余组学之间的建模关系,如表1和表2所示。例如,基因 ENSMUSG00000055493 在条件group 1 中短暂诱导是一个 DEG,在条件2中连续抑制。染色质可及区域 10-11358301_11358431 被建模为该基因在两种条件下的显著激活因子,从而进行基因表达与调控基因。

4 讨论

新的MOSimR 包允许通过灵活的实验设计快速、轻松地生成多种组学数据类型的计数数据矩阵。更重要的是,该算法旨在以与先验信息(例如目标 mRNA-microRNA 关联)一致的方式模拟基因表达和其他分子成分之间的多重调控关系。实验设计的定义、DEG 数量和主动调节器的高度灵活性使该软件包成为验证旨在模拟复杂多层调节程序的方法的多功能工具。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值