A novel Bayesian network inference algorithm for integrative analysis of deep sequencing data

这篇博客仅仅是本人对于<A novel Bayesian network inference algorithm for integrative analysis of deep sequencing data>文章的读后感,从自己的角度分析和认识作者写这篇文章的目的,即why ?how?and verification。


Q:为什么作者会想到做这方面的研究?

高通量技术的支持使得可以在全基因范围内量化转录因子结合位点、蛋白质修饰、DNA甲基化等数据,这些数据的产生使得对于分析和处理这些数据,并提取有意义的生物知识的工具开发迫在眉睫。然后,目前,大多数工具目的任然是定位相关数据到相关基因,发现染色体上那些定位富集的“峰”值区域。然后,对于主要目的是从二代测序数据中产生可测试的生物假设的工具很少存在。具体到本文,作者认为很少有工具被设计为直接还原由于染色质相互作用区域引起的分子间相互作用。从这个考虑出发,他们研发了一中新型的Bayesian network(BN)结构的算法称为SeqSpider,目的是推测一系列生物因子间(比如:基因)的调控关系,这些数据来自相同和不同的实验室产生的不同类型的高通量数据集。

Q:为什么作者想到用贝叶斯网络来建模?

首先贝叶斯网络是基于概率推理,所谓概率推理就是通过一些变量的信息来获取其他的概率信息的过程,基于概率推理的贝叶斯网络(Bayesian network)是为了解决不定性和不完整性问题而提出的,它对于解决复杂网络不确定性和关联性引起的问题有很大的优势,在多个领域中获得广泛应用。具体来说,就是在信息不完备的情况下通过可以观察随机变量推断不可观察的随机变量,并且不可观察随机变量可以多于以一个,一般初期将不可观察变量置为随机值,然后进行概率推理。应用到本文,我们就是对于生物因子(基因等)的不确定性构建贝叶斯网络。但是传统的贝叶斯网络仅仅接受离散的训练数据。这一点在处理高通量数据时尤为明显,因为传统的算法不能对于高通量数据中一重要特征-DNA Tag(DNA标记序列)的分布建模。而原文作者提出的这种改进的贝叶斯网络建模----SeqSpider algorithm,可以同时接受和处理tag分布数据以及离散和连续型变量。作者将SeqSpider这种算法,与一种基于聚类策略来减少噪音的方法相结合成功地预测了人类胚胎干细胞内分子的相互作用(训练数据为:Chip-Seq of seven histone modification and seven transcription factors,BS-Seq and RNA-Seq),其预测效果准确且稳定相对于传统的仅仅能处理离散数据的贝叶斯网络来说。(在相同的数据集中)

Q:SeqSpider算法的流程。

  首先,作者提出了一种核心函数能让序列标签分布数据和离散以及连续的二代测序数据无缝连接。为BN处理这些数据提供前提。然后作者提供一种Super-K-Means聚类那些具有相似修饰模型的基因,来减少训练集中的噪音和偏差。最后通过SeqSpider处理这些经过预处理的数据得到优化的调控关系。(每一个算法的核心思想在补充信息中,因为篇幅较长(151页)仍在阅读)。


Q:SeqSpider算法(三大核心思想)

  未完待续.

总结:可以看出本文和另一篇来自bioinformatics的文章<A classification approach for DNA methylation profiling with bisulfite next-generation sequencing data>一样都从数据分布出发分别对于数据处理或者建模,然后用学习的模型来做出分类或者预测。所以当前的研究热点任然是将数据挖掘和机器学习算法做适当的改进应用到高通量测序数据中,无论是序列模式挖掘,序列聚类,还是基于调控网络的构建。从我们现有数据出发,我们可以对于小鼠甲基化用现有软件进行定位,然后构建一个甲基化分布的模型,对于定位结果进行reduce,然后改进或者创新经典序列模式挖掘算法来进行序列模式挖掘(比如类Apriori生成候选算法,FreeSpan算法等),我们也可以考虑用类bayes network来学习一个调控网络。但关键点还是在研究这几种常见的机器学习算法的特性在现有数据当中的应用和改进以及创新,由此我做了以下的学习安排:

1.分析训练数据格式特征,考虑能否从数据本身出发做出一个恰当假设消除噪音。

2.数据定位,考虑数据定位后的准确性,建立回归模型,修正bias。

3.对修正后的数据建立挖掘模型,或者预测模型,实现对于未知或者已知序列的挖掘,比如挖掘未知或者已知序列的频繁项集,预测未知序列发生甲基化的可能性或者在基因的结合位点。

4.将甲基化数据融合到基因调控网络中,用类Bayes模型或者Markove模型的非线性扩展来优化基因调控网络。

(以上内容涉及大量机器学习知识,需要实验室一起做深入研究才能共同提出优秀的模型来更好地拟合数据,学习一个更好的模型。)


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值