应用上云,怎能没有容器!关注微信公众号容器魔方关注我
基因数据处理科学中的分析工具
昨天我从学校回家经过高速公路时,Sapugaskanda公司的炼油厂引起了我的注意,看到炼油厂的塔楼在运行时会向天空发出巨大的火焰。炼油厂的这番景象让我想起了许多制造业和运输业用于改造或者运输材料的管道,管道的最后端将会得到最终的货物。一个常见的例子是用于长途运输的输油管道,它会在中间环节进行精炼油处理,并在最后生成各种石油产品。
同样的,基因数据也可以通过各种软件处理Pipeline方式进行传递,根据特定目的进行各种数据处理和数据分析,并最终生成所需要的可视化结果和对应的解释。
基因组学中的Pipeline
随着第二测序技术(NGS)的进步,海量的基因组数据正以前所未有的速度生成。NGS技术包括序列比对和基因组注释等步骤,这些步骤由非常多的变量作为输入,并且是计算密集型的。由于在进行基因组分析时,所面临的这些大量数据处理问题,使得目前有一些比较有效的解决方案,用来加快处理和分析速度。
Pipeline模型就是科学家用于处理各种分析数据的一种解决方案。在本文中,我将向您介绍Pipeline工具以及它们如何随着时间的推移逐步发展,并形成目前基于云的Pipeline框架以及未来趋势。
什么是Pipeline流程
根据维基百科
一个Pipeline是一组串联方式的数据处理过程,其中一个步骤的输出是下一个步骤的输入。Pipeline的步骤通常以并行或时间切片的方式执行; 在这种情况下,通常在步骤之间插入一些用于缓冲的共享存储。
可以将多个分析工具连接在一起,以逐步执行的方式分析基因组数据。这就是基因数据处理Pipeline