生物通报道:随着基因芯片技术的迅速发展,表达谱芯片分析及aCGH等方法已被广泛应用于生命科学各个研究领域,由此产生的数据也呈指数级增长。如何从海量数据中获取有生物学意义的结果成为摆在生物学工作者面前的难题。
来自中国疾病预防控制中心传染病预防控制所传染病诊断室的尤元海,张建中在一篇综述中对表达谱芯片数据挖掘方法进行了综述,他们介绍了基本分析思路,当前重点分析方向,如GO分析、pathway与调控网络分析、聚类分析等计算法则和相关几款易用的分析软件。并介绍了几种科学自由计算软件在表达谱生物信息学分析中的应用。
基因芯片是近二十年分子生物学领域发展起来的革命性技术之一,以其高通量快速并行的特点加快了生命科学研究的步伐。近几年随着表达谱芯片技术的日趋成熟,大量研究结果产生了海量的生物学数据,怎样从这些纷繁的基因表达数据中读懂其中蕴含的生物学意义成为摆在生物学工作者面前的一个新的难题。近几年芯片数据挖掘的一些新方法新思路在一定程度上降低了这项工作的复杂性,要很好地理解数据,不仅要明确研究目的和背景,掌握一些具有多种功能的生物统计分析软件也是必不可少的。
目前针对基因表达谱芯片数据分析开发的在线和离线程序有几十种之多,对数据分析方法的报道也有很多,主要集中在数据前处理和聚类分析、判别分析方法方面,侧重于原理的介绍,而大多数从事芯片研究人员面对的一系列问题是:数据分析从何入手,哪些分析是必要的,有哪些易用的开源的程序可供使用,怎样能够快速选择并掌握合适的分析手段。
文章从这一方面入手,分别综述了表达谱数据分析思路,表达谱数据的GO分析,pathway分析与调控网络的推导,聚类分析,科学自由计算软件在分析中的应用。芯片数据分析面临的问题是如何从有限的数据结果挖掘出尽可能多的有意义的信息,这样就对研究人员的知识结构提出了较高要求,要能够把数学、统计学、计算机科学与生物学、医学有机结合起来进行综合分析,而这种分析如果只是把计算统计学者和生物医学学者的各自专业的机械结合,往往得不到理想的结果,生物医学工作者注重提高统计计算方面的技术对于深入理解数据是非常重要的。
在未来一段时间内,基因芯片高通量分析手段仍是组学研究中的利器,随着基因芯片方法学上的进一步完善,芯片数据将更加准确,下一步的主要任务将是完善下游对数据的系统科学的分析以及生物学意义的提取,这也是基因芯片分析的根本目的。
(生物通:万纹)