RAMClouds

背景

1、京东高并发解决方案:
在这里插入图片描述
对于京东这么一个大的平台来说,高并发成为其需解决的比不可少的一个问题,他们通过负载均衡,缓存,消息队列,分表分库等技术来解决高并发问题,但其受限于DB的规模,换句话说,DB成为了整个架构的瓶颈。对于业务层来说,最终的数据始终来自于DB,其需要维护Redis集群与DB缓存的一致性,代价巨大,由于DB层使用的是磁盘来持久化数据,导致每个DB吞吐量小,所以需通过分表分库来增加提升DB层的吞吐量,代价太大。

2、Facebook在2009年的时候就有4000个MySQL服务器,但由于大量交互式数据的调用,现有的存储系统依旧不能满足它的I/O需求,所以Facebook用了2000个Memcached用作分布式内存对象缓存服务器–将一些键值存储于主内存中,但其瓶颈在于,需要处理Memcached和MySQL服务器之间的一致性,需要对应用软件进行管理(比如刷新缓存值以更新数据库),这无疑增加了应用的复杂性。
当发起一个请求时,FaceBook需发送100-200个内部请求才能生成一个完成的HTML。

Nosql的出现试图解决该问题
但Nosql由于结构不固定,没有像关系数据库那样的约束,无法实现类似于“where”的查询。并且,它的访问速度也受限于I/O。

总的看来,使用磁盘技术作为存储会产生一下几个方面的不足:
1、扩展性较差
2、访问速度慢
3、需要解决缓存一致性问题
4、并发读写能力不足

RAMClouds解决方案

John Ousterhout提出RAMCloud解决方案。
RAMCloud是一种新型数据中心存储系统,它是由成千上万台普通服务器的主存所组成的大规模系统,任何时候,所有信息都存储在这些快速的DRAM(动态随机访问存储器,即俗称的内存)中,内存取代了传统系统中的硬盘,硬盘只作为备份使用。
RAMCloud架构的原理在于将存储所有商业服务器的信息在主存储器上,并使用数百上千的服务器创建大型存储系统。据称,存储在RAMCloud上的数据的延迟要比存储在基于硬盘的系统上低100-1000倍,而吞吐量则会高100-1000倍。
图灵奖得主Jim Gray很早就提出了“内存将成为硬盘,硬盘将成为磁带”的说法

优势

1、RAMCloud将所有数据存放在DRAM中,性能可以达到比目前最高性能的硬盘存储系统还要高100~1000倍。
2、在同一个数据中心中通过在应用服务器上运行的一个进程通过网络读取几百字节的数据的访问延迟有可能降低到5μs–10μs。相比之下,今天的系统通常需要0.5ms到10ms,这取决于数据是否存在于服务器内存的缓存上,或必须从磁盘中读取。
3、一台多核的存储服务器应该至少能在每秒相应100万的网络请求。根据配置和缓存的内容,一个基于磁盘的系统的类似机器(运行多个磁盘和一个存储缓存的主内存)每秒可相应1000至10000的网络请求。

成本分析

作者John Ousterhout给出了使用磁盘,闪存,DRAM的成本对比图
在这里插入图片描述
我们发现,在查询率较高,数据块较小的情况使用DRAM的成本是较低的,当前的存储系统中,有许多数据块是不足10M的,甚至照片,歌曲。

RAMClouds架构

架构

RAMClouds的设计架构如下图所示:
在这里插入图片描述
Master和Backup。Master管理了存储在memory中的object。Backup使用本地的机械硬盘或者固态硬盘保存了其他server的数据备份。
Coordinator作为配置管理器,主要管理master和backup的对应关系,由于其不参与读写,所以不会成为RAMClouds的瓶颈。
上图中,对于ApplicationServer而言,读写来自于Master,由于读写内存,速度非常快,而中间的Datacenter Network中的交换机可能会无法及时处理如此高速的数据,会产生堆积而崩溃,所以在此推荐使用infiniband交换机,该交换机未使用TCP/IP协议,使用于数据中心网。

可用性和持久性

持久性主要通过备份到backup中来保证。
在这里插入图片描述
RAMCloud提供了一个简单的key-value的数据模型,数据(称为object)都是连续存储的。每个object都被长度不一的唯一的key标记。多个object被保存到table中,这个table有可能跨越多个server。object只能以整体的方式进行读写。它为小object做了专门的优化,这也非常适合超大规模的web并发的请求。

其主要通过将数据包分成8M的块,写入到backup的缓存就直接返回,而无需等待其写入到disk中才返回。
在这里插入图片描述
每个Master都有自己的日志,这些日志被分成8M的块,成为segment(段)。每个segment都会冗余到其他的server的Backup,典型的配置都是冗余2-3块。在client写操作的时候,冗余发送到其他的节点,这些节点在把冗余写到memory的buffer后就会返回,而不是保存到本地磁盘后才返回,这样保证了client的高速度写入。这些buffer在某些时间点会flush到本地存储。

为什么是8M?

在这里插入图片描述
静态配置备份,受限与配置备份服务器数量的总吞吐量。
在这里插入图片描述

缺点

1、RAMCloud最明显的缺陷,成本和能耗都比较高,对于读写速度要求不高的系统无需采用该解决方案。
2、能在一个数据中心中提供高性能,对于跨多数据中心的应用,更新延迟是由数据中心之间的距离决定的,因此RAMCloud在写操作上没有优势,但对跨数据中心的读操作仍然能提供更低的延迟。
3、断电问题,由于数据存放在DRAM中,断电后数据会丢失,因此应该使用备份电池。

实际案例

1、中国铁路客户服务中心12306网站选择Pivotal GemFire分布式内存计算平台改造方案,根据系统运行数据记录,在只采用10几台X86服务器实现了以前数十台小型机的余票计算和查询能力,单次查询的最长时间从之前的15秒左右下降到0.2秒以下,缩短了75倍以上。通过云计算平台虚拟化技术,将若干X86服务器的内存集中起来,组成最高可达数十TB的内存资源池,将全部数据加载到内存中,进行内存计算。计算过程本身不需要读写磁盘,只是定期将数据同步或异步方式写到磁盘。
2、Google和雅虎把索引都存在在DRAM中,提高了访问速率。
3、Spark把中间数据存放在内存中,取得了较高的计算效率。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
蛋白质是生物体中普遍存在的一类重要生物大分子,由天然氨基酸通过肽键连接而成。它具有复杂的分子结构和特定的生物功能,是表达生物遗传性状的一类主要物质。 蛋白质的结构可分为四级:一级结构是组成蛋白质多肽链的线性氨基酸序列;二级结构是依靠不同氨基酸之间的C=O和N-H基团间的氢键形成的稳定结构,主要为α螺旋和β折叠;三级结构是通过多个二级结构元素在三维空间的排列所形成的一个蛋白质分子的三维结构;四级结构用于描述由不同多肽链(亚基)间相互作用形成具有功能的蛋白质复合物分子。 蛋白质在生物体内具有多种功能,包括提供能量、维持电解质平衡、信息交流、构成人的身体以及免疫等。例如,蛋白质分解可以为人体提供能量,每克蛋白质能产生4千卡的热能;血液里的蛋白质能帮助维持体内的酸碱平衡和血液的渗透压;蛋白质是组成人体器官组织的重要物质,可以修复受损的器官功能,以及维持细胞的生长和更新;蛋白质也是构成多种生理活性的物质,如免疫球蛋白,具有维持机体正常免疫功能的作用。 蛋白质的合成是指生物按照从脱氧核糖核酸(DNA)转录得到的信使核糖核酸(mRNA)上的遗传信息合成蛋白质的过程。这个过程包括氨基酸的活化、多肽链合成的起始、肽链的延长、肽链的终止和释放以及蛋白质合成后的加工修饰等步骤。 蛋白质降解是指食物中的蛋白质经过蛋白质降解酶的作用降解为多肽和氨基酸然后被人体吸收的过程。这个过程在细胞的生理活动中发挥着极其重要的作用,例如将蛋白质降解后成为小分子的氨基酸,并被循环利用;处理错误折叠的蛋白质以及多余组分,使之降解,以防机体产生错误应答。 总的来说,蛋白质是生物体内不可或缺的一类重要物质,对于维持生物体的正常生理功能具有至关重要的作用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值