Tachyon--以内存为核心的开源分布式存储系统

Tachyon是一个以内存为中心的开源分布式存储系统,旨在解决大数据计算框架之间的数据共享和快速访问问题。它提供了一个独立的存储层,允许不同计算平台共享内存中的数据,提高性能并避免磁盘操作。Tachyon支持多种计算框架如Spark、Hadoop,并可整合多种存储系统,如HDFS、Amazon S3。在百度大数据平台的应用中,Tachyon提升了交互式查询的速度,通过内存缓存和层次化存储实现了性能提升和故障恢复。此外,Tachyon具备高可扩展性和丰富的功能,如层次化存储、统一命名空间、HDFS兼容接口和实时指标监控等。
摘要由CSDN通过智能技术生成

Tachyon是一个以内存为核心的开源分布式存储系统,也是目前发展最迅速的开源大数据项目之一。Tachyon为不同的大数据计算框架(如Apache Spark,Hadoop MapReduce, Apache Flink等)提供可靠的内存级的数据共享服务。此外,Tachyon还能够整合众多现有的存储系统(如Amazon S3, Apache HDFS, RedHat GlusterFS, OpenStack Swift等),为用户提供统一的、易用的、高效的数据访问平台。本文首先向读者介绍Tachyon项目的诞生背景和目前发展的情况;然后详解Tachyon系统的基本架构以及目前一些重要的功能;最后,分享一个Tachyon在百度大数据生产环境下的几个应用案例。

1.Tachyon简介

随着技术的发展,内存的吞吐量在不断地提高,单位容量的内存价格在不断降低,这为“内存计算”提供可能。在大数据计算平台领域,采用分布式内存计算模式的Spark验证了这一点。Spark相比于MapReduce大大提升了大数据的计算性能,受到了业界和社区的广泛关注。然而,还是有很多问题在计算框架层难以解决,如:不同的Spark应用或不同计算框架(Spark,MapReduce,Presto)间仍需通过基于磁盘的存储系统(如HDFS,Amazon S3等)交换数据;当Spark计算任务崩溃,JVM缓存的数据会丢失; JVM中大量缓存的数据增加了Java垃圾回收的压力。

Tachyon最初出现是为了有效地解决了上述问题,它计划构建一个独立的存储层来快速共享不同计算框架的数据,实现方式上将数据置于堆外(off-heap)内存以避免大量垃圾回收开销。例如,对应Spark应用而言,可以带来以下作用:

  1. 不同Spark应用,甚至不同计算平台上的应用需要数据共享时,通过Tachyon进行内存读写,避免缓慢的磁盘操作。
  2. 使用Tachyon进行数据缓存,当Spark任务崩溃,数据仍缓存在Tachyon内存中,任务重启后能够直接从Tachyon中读取数据。
  3. 多个Spark应用理论上甚至可以共享同一份Tachyon缓存的数据,避免内存资源的浪费,减轻Java垃圾回收的压力。

图片描述

图1. Tachyon在生态系统的位置

图1给出了Tachyon部署时所处的位置。Tachyon被部署在计算平台之下和现有的存储系统之上,能够在不同计算框架间共享数据。同时,现有的海量数据不需要进行迁移,上层的计算作业仍能通过Tachyon访问到底层存储平台上的数据。Tachyon作为一个以内存为中心的中间存储层,不仅能极大地提升上层计算平台的性能,还能充分利用不同特性的底层存储系统,更可以有效地整合两者的优势。

Tachyon最初是由李浩源博士发起的源自UC Berkeley AMPLab的研究项目(该实验室也是Mesos和Spark的发源地)。自2013年4月开源以来,Tachyon社区不断壮大,已经成为发展速度最快的开源大数据项目之一,目前已有来自超过50个组织机构的200多人参与到了对Tachyon项目的贡献中,也有超过100家公司部署了Tachyon。于此同时,Tachyon的核心创建者和开发人员创立了Tachyon Nexus公司,其中不乏UC Berkeley、CMU等博士以及Google, Palantir, Yahoo!等前员工。 2015年3月美国华尔街日报报道了Tachyon Nexus获得硅谷著名风投Andreessen Horowitz 的750万美元A轮投资。

图片描述

图2. Tachyon项目贡献者的增长情况

在学术界, 国内的南京大学PASA大数据实验室一直积极关注并参与到Tachyon项目的开发中,共向Tachyon社区贡献了100多个PR,近300次commit,包括为Tachyon实现性能测试框架tachyon-perf,增

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值