HDFS
文章平均质量分 92
Android路上的人
开源社区爱好者, Apache Hadoop PMC & Apache Ozone PMC, 专注于分布式存储领域, 大数据方面的研究
展开
-
HDFS RPC限流方案实践探索
文章目录前言HDFS RPC限流方案分级RPC queue的调参分级RPC queue的insight前言在前面的一篇关于分布式集群下的限流方案文章里,笔者阐述了一种在HDFS集群里的RPC限流架构。其间也提到了很多关于分布式限流架构里的关键要素,包括用户区分,分级队列的概念等等。不过上次文章更多偏向于理论原理篇,本文笔者将结合实际生产环境的特点,来给大家讲讲如何真正将限流方案实施到生产集群,并能够达到预期的效果。HDFS RPC限流方案这里要首先聊聊笔者目前集群所将要采用的HDFS RPC限流原创 2022-05-22 16:23:53 · 1057 阅读 · 0 评论 -
HDFS DataNode高密度存储机型的探索尝试
前言随着公司业务的发展,我们需要存储越来越庞大的数据来支撑公司业务的发展。这里就涉及到了数据存储能力的问题,需要存储的数据越多,其实意味着我们需要更多的机器来扩增HDFS集群存储的总capacity。但是机器数量的变多另外一方面带来的则是机器费用成本的巨大开销。我们如何在保证机器开销前提下,最大程度提升单机器的存储能力,这个就成为了一个集群维护人员需要思考和解决的问题。鉴于这个出发点,笔者最近在研究调研新一代具有更高存储能力的机型,这期间笔者做了大量的场景设置和性能测试来判断此机型是否能达到集群的要求。原创 2022-04-22 17:13:20 · 1150 阅读 · 4 评论 -
HDFS简化版Maintenance state实现
文章目录前言前言在HDFS集群运维过程中,我们经常会遇到机器送修的情况,尤其在集群机器数量比较多的情况,每天因为坏盘或是其它硬件问题导致的机器维修是很常见的。对于集群维护者来说,机器的这种日常损坏我们是无法回避的,我们能做的是如何将这种机器维修的所造成的影响降低到最小。在现有的HDFS中,社区提供了一种叫做Maintenance state的功能来专门处理这种情况的。本文笔者来谈谈这个特殊的功能以及我们内部是如何简化此特性来方便于我们的使用的。Maintenance state DataNode和普原创 2022-02-08 20:11:23 · 1219 阅读 · 0 评论 -
HDFS block access token认证机制
文章目录前言Block access tokenHDFS block access token的原理前言在存储系统中,数据的安全性无疑是十分重要的。在我们常见的文件系统中,最常使用的方式是通过文件目录的权限来做数据访问的控制。在HDFS这样分布式存储系统中,其内部实现同样沿用了这样的方式来做数据访问的控制。但是在HDFS拥有如此海量数据规模的系统中,我们只做文件权限的检查是足够安全的吗?鉴于HDFS的架构设计,权限检查是发生在NameNode端的,这时倘若一个恶意用户绕过了文件权限检查,然后直接访问实原创 2021-12-28 18:07:56 · 1957 阅读 · 1 评论 -
HDFS数据跨区域存储分布
文章目录前言跨区域存储和跨rack存储的区别HDFS跨区域存储实现前言在上篇文章HDFS多rack分布的block placement policy设计实现里,笔者探讨了HDFS数据副本跨多rack分布的新placement方案,以此来提高数据的可用性。因为在日常集群运行过程中,是可能存在因为集群的操作维护导致短时间内一整个rack处于停服务状态的。按照HDFS三副本的存放策略,一整个rack离线意味着2/3的拷贝丢失了,这将极大增加数据不可访问的概率。本文我们来继续深入探讨这一话题,既然数据副本已经能原创 2021-09-19 17:47:35 · 2398 阅读 · 2 评论 -
HDFS RBF模式RPC吞吐量瓶颈的优化探索
文章目录前言RBF模式的RPC吞吐量问题原因猜想网络延时的影响Router本身服务处理的影响前言之前笔者介绍过HDFS的RBF方案来解决HDFS NameNode单点瓶颈的问题。目前也是有越来有多的公司采用RBF的方案来做HDFS集群的统一管理。笔者在最近一段时间也是在调研RBF的特性同时也是测测这里面还有没有一些没有被发现的问题。在此期间,我和同事小伙伴发现里面最大的一个问题:上了RBF后,RPC的上限吞吐量比之前直连NN时降了非常之多。之前直连NN测试时,我们可以压到30k+的水准,在RBF模式下原创 2021-08-08 17:17:31 · 18304 阅读 · 2 评论 -
HDFS多rack分布的block placement policy设计实现
文章目录前言HDFS多rack分布的block placement policy多rack分布的policy实现思路旧block placement的到新block placement的迁移前言众所周知,HDFS拥有3副本来保证其数据的高可用性。而且HDFS对着三个副本的位置放置也是有专心设计的,2个副本放在同一个rack(不同节点),另外一个副本放在另外的一个rack上。在这样的放置策略下,这个副本数据能容忍一个节点的crash甚至是一个rack机器的crash。但这里所提及的"rack“的概念是集原创 2021-07-03 12:55:28 · 2352 阅读 · 0 评论 -
HDFS NN refreshNodes操作的可用性和效率的改进
文章目录前言NN refreshNodes的可用性以及效率问题前言我们知道在HDFS里面有,存着一类白名单和黑名单的列表来控制其下允许进行注册的DN节点。这样可以防止一些外部恶意节点注册到我们的NN上来。在HDFS的概念里,这个黑白名单叫做include file和exclude file。在一般情况下,exclude file的使用范围会更管一些,因为DN的decommission下线需要将待下线机器加到此exclude file中,然后再手动执行dfsadmin的refreshNodes命令进行刷原创 2021-06-12 17:08:50 · 3264 阅读 · 3 评论 -
HDFS Multiple Standby原理分析
文章目录前言HDFS Multiple Standby的实现要素Multiple Standby实现分析前言HDFS在早期实现HA时,是标准的一主一备的服务模式,主的叫Active NameNode,备的叫Standby NameNode。Standby/Active NN间可以互相切换以此达到服务高可用的目的。但是这种双节点的HA模式是否能够满足更高的高可用性的要求呢?在标准的HA模式下,其实只有1个Standby的NN作为bak来使用。假设在极端情况下,Active和Stanby同时出现crash原创 2021-05-05 14:23:45 · 913 阅读 · 1 评论 -
HDFS RBF部署生产环境的难点和挑战
文章目录前言一. Router层面的潜在问题Router的性能测试,对请求延时的影响Router间如何做到本地状态的一致性Router对下游NN的统筹管理前言上篇文章笔者简单介绍了HDFS Federation新方案RBF里的connection管理。RBF虽说在功能上只是帮助client做请求转发的,在角色功能定位上相当于一个代理的角色。但RBF的这个“代理”远比我们平常说的代理服务要复杂许多。RBF的核心服务Router在设计实现上被赋予了远比普通代理服务更为全面,成熟的功能。因此集群维护者需要对原创 2021-03-27 11:19:22 · 2885 阅读 · 0 评论 -
HDFS Standby NameNode Read功能剖析
文章目录前言HDFS Standby Read的背景及功能要求Standby NameNode一致性读的控制实现原理分析代码分析流程分析图参考链接前言HDFS有着一套十分成熟的HA的机制来保证其服务的高可用性。在HA模式下,分别对应有Active和Standby NameNode的服务。Active NameNode用于提供对外数据服务,而Standby NameNode则负责做checkpoint的工作以及随时准备接替变成Active NameNode的角色,假设说当前Active NameNode原创 2021-02-06 20:33:56 · 1753 阅读 · 0 评论 -
一次HDFS Snapshot无法删除的问题排查
文章目录前言背景问题Snapshot的清理Snapshot NPE异常代码层面的分析线下Snapshot问题恢复失败HDFS内部代码改动的重新梳理分析setTimes忽略snapshot diff更新的改动总结参考资料前言众所周知,HDFS有一个十分有用的Snapshot的功能,可以用来保护数据被误删除的情况。可能有人会说了,数据被删除了,我难道不可以从trash目录里把数据再恢复回去吗?HDFS的Snapshot和我们平常说的数据删除进trash目录不太一样,HDFS删除操作进trash目录是一个延原创 2021-01-30 21:49:28 · 27708 阅读 · 0 评论 -
一次HDFS JournalNode transaction lag问题分析排查
文章目录前言背景问题追踪排查分析排查一:JN服务本身问题排查二:NN 服务问题排查三:JN机器硬件层面问题推论四:JN受所在机器其它服务的影响总结前言众所周知,在HDFS集群中,NameNode服务是其中的核心服务。NameNode的性能处理效率的高低直接影响着其对外提供的服务能力。鉴于过往笔者已经写过诸多NameNode优化系列的文章,本文笔者来聊聊另外与NameNode相关的服务JournalNode(简称JN)服务。JournalNode是在HDFS HA模式下用来做共享editlog的存储的。原创 2021-01-17 16:37:36 · 5652 阅读 · 6 评论 -
HDFS NameNode fsimage文件corrupt了,怎么办
文章目录前言NameNode fsimage corrupt场景NameNode fsimage corrupt解决办法NN fsimage corrupt的重新行为参考链接前言在如今很多用户使用HDFS做为大数据的底层存储时,我们除了关心HDFS的处理性能外,我们经常还需要关注其中数据高可用的情况,例如不能出现数据损坏的情况,比如missing block,或者文件block corrupt的情况。但是其中我们忽略掉了一种最为极端同时也是最为棘手的情况:HDFS NameNode fsimage文件原创 2020-12-19 23:06:18 · 2015 阅读 · 1 评论 -
Hadoop服务配置热替换框架的设计实现
文章目录前言服务热替换更新需要解决的问题点前言在分布式系统中,根据不同的运行情况进行服务配置项的更新修改,重启是一件司空见惯的事情了。但是如果说需要重启的服务所需要的cost非常高的时候,配置更新可能就不能做出频繁非常高的操作行为了。比如某些分布式存储系统比如HDFS NameNode重启一次,要load元数据这样的过程,要花费小时级别的启动时间,当其内部存储了亿级别量级的文件数的时候。那很显然对于这种高cost重启的服务来说,我们不能每次依赖重启做快速的配置更新,使得系统服务能使用新的配置值进行服务原创 2020-08-08 17:11:39 · 1048 阅读 · 0 评论 -
Scheme覆盖式的ViewFileSystem设计实现
文章目录前言Scheme覆盖式的ViewFileSystemViewFileSystemOverloadScheme的实现引用前言在多HDFS集群模式中,我们为了使得多集群对于client端的透明使用,一般可以采用的是ViewFs的方案。当然后来社区实现的HDFS RBF功能无疑是更佳的选择,但是在RBF出现,ViewFs实现的更早且方案更为简单,因此ViewFs是通过在client端实现的一个请求解析以及转发。但是本文我们来讨论一个ViewFs使用的痛点问题:ViewFs高成本的配置更新问题以及更为t原创 2020-08-02 17:40:30 · 931 阅读 · 1 评论 -
记录一次HDFS RPC返回Response过程慢导致的性能问题
文章目录前言NameNode请求处理慢的场景RPC返回response的Handler处理慢问题HDFS RPC call异步response改造前言众所周知,在HDFS NameNode中,一直都有一个老生常谈的难题就是其扩展性的问题,而很多时候我们说HDFS的扩展性问题时我们很多时候都在谈的点在于里面全局锁的问题。一个很通常的场景是NameNode在高并发请求处理下存在着激烈的锁竞争,进而使得用户感觉到他们的请求被处理的有点慢。不过本文笔者不聊关于全局锁优化的问题,最近笔者遇到了另外一种NameN原创 2020-07-18 11:21:24 · 29700 阅读 · 1 评论 -
HDFS Rolling Upgrade的实现要点分析
文章目录前言HDFS NameNode端针对Rolling Upgrade的调整HDFS DataNode端针对Rolling Upgrade的调整引用前言我们知道HDFS Rolling Upgrade功能在几年前比较早的时间早已实现,但是我们往往只注意怎么去做HDFS Rolling Upgrade这个事情本身,但是对于HDFS如何实现Rolling Upgrade这个功能可能了解的会比较少。本文笔者来聊聊其中部分要点的设计实现,为了做到Rolling Upgrade的快速和安全性,社区在这块实现原创 2020-06-28 17:31:02 · 1402 阅读 · 0 评论 -
基于RPC Call延时返回的HDFS异步editlog原理
文章目录前言现有HDFS的RPC正常请求处理前言前面文章笔者介绍过Hadoop社区为了增加内部RPC的throughput,通过延时返回response的调整来提早释放Server端的Handler资源,以此尽可能的把Handler的处理能力用在真正的RPC请求上。HDFS目前所使用的异步editlog机制正是使用了这个优化改进。这里所说的HDFS异步editlog写出并不是大家所简单的认为NameNode完全异步化写出editlog到其JournalNode服务中,然后直接返回结果给client。那原创 2020-06-04 23:43:07 · 1131 阅读 · 1 评论 -
HDFS federation集群间的数据Balance工具方案
文章目录前言粗粒度的federation Balance方案系统化的federation Balance工具方案引用前言在目前单一大HDFS集群越来越无法支撑我们的业务场景时,越来越多的公司开始考虑采用HDFS federation方案来做。这里就自然会衍生出一个问题:新federation出来的Namespace,我如何将数据从原集群(NameNode)同步出来呢?而且在这个过程中,还会有每天增量数据的写入在老集群内。假若只是静态的数据,我们启动一个distcp任务就可以做这部分跨namespace原创 2020-05-09 11:49:24 · 1240 阅读 · 0 评论 -
HDFS大目录文件删除方案的实践思考
文章目录前言HDFS的大目录删除行为HDFS大目录删除实现方案思考引用前言前面几篇文章笔者讲述了2篇关于文件目录删除的相关文章,也提到了一些相对应的解决方案和思路。不过笔者本文想再谈谈对于这个问题的一些思考,主要关注在HDFS下大目录的删除性能影响方面。不敢说是谈论的是HDFS大目录删除的最佳实践方案,但是在某些点上,在实际环境中还是有一定的可应用性的。本文部分内容会引入笔者前段时间写的两篇...原创 2020-04-26 23:34:07 · 1583 阅读 · 0 评论 -
聊聊HDFS删除Snapshot行为导致的NameNode crash
文章目录前言HDFS的Snapshot以及delete Snapshot行为基于SkipList的Snapshot diff预先合并引用前言关于HDFS的快照,使用过的同学对于这个功能还是持正面评价居多的吧。这个特性所能带给我们最大的好处就是防止用户误删数据导致数据丢失的问题了。从数据保护层面而言,HDFS Snapshot确实起到了十分关键的作用。但是话虽然是这么说,那么如果我们想确保集群...原创 2020-04-01 22:45:16 · 1026 阅读 · 0 评论 -
HDFS Missing Block诊断信息的改进
文章目录前言HDFS Block副本storage location的移除逻辑HDFS Block的last stored location的优化HDFS Missing Block lastStoredLocationd的测试前言在存储系统中,数据的安全性无疑是最top priority的事情,因此当数据发生丢失的时候,如何快速找到这些数据的位置并且快速地对他们进行恢复是最最要紧的事情。本...原创 2020-03-07 11:43:44 · 1503 阅读 · 0 评论 -
HDFS DeadNode Detection机制
文章目录前言HDFS DFSClient现有DeadNode监测DFSClient共享DeadNode的监测和恢复引用前言在大规模集群中,节点挂掉的现象是十分常见。当节点挂掉的时候,上面所跑的任务或者发送到这个节点的请求将会失败。按照分布式系统的正常处理方法,它会选择另外的节点进行重新的数据请求。这种重试机制在一定程度上可以解决因为节点意外挂掉导致的请求失败情况,但是这种方式并不是高效的。假...原创 2019-11-17 12:14:30 · 1428 阅读 · 0 评论 -
HDFS源码分析(五)-----节点注册与心跳机制
前言在Hadoop的HDFS启动的时候,不知道大家有没有注意到一个细节,一般都是先启动NameNode,然后再启动DataNode,细想一下,原因就很简单了,因为NameNode要维护元数据信息,而这些信息都是要等待后续启动的DataNode的情况汇报才能逐步构建的.然后之后通过保持心跳的形式进行block块映射关系的维护与更新.而今天的文章就以此方面,对这块流程做全面的分析.相关涉及类依旧需要介原创 2015-08-24 23:18:29 · 5356 阅读 · 0 评论 -
Hadoop分布式文件系统--HDFS结构分析
前言在Hadoop内部,具体实现了许多类的文件系统,当然最最被我们用到的就是他的分布式文件系统HDFS了。但是本篇文章不会讲HDFS的主从架构等东西,因为这些东西网上和资料书中都讲得很多了。所以,我决定以我个人的学习所得,来讲讲HDFS内部的一些有意思的东西,也作为一个起始点,为后续继续深入其中模块的学习做基础。HDFS两大主流关系模块与NameNode相关,文件系统元数据操作相关。包括文件目录树原创 2015-08-09 16:57:52 · 4243 阅读 · 1 评论 -
HDFS源码分析(六)-----租约
前言在文章开始,先讲个大家都经历过的事--去图书馆借书,当然,喜欢阅读的朋友也许和我一样比较喜欢借书阅读,借书阅读方便是方便,但是唯一不好的地方在于他又期限,就是deadlline,之前在我们学校有规定,如果超期为归还的书不允许借阅另外的书籍,所以要想使自己能接到新的书,就必须先归怀超期的书籍。当然这个经历本身再寻常不过了,但是我想表达的是在HDFS分布式文件系统中的租约机制与此过程有着极强的吻合原创 2015-08-26 23:11:00 · 5104 阅读 · 0 评论 -
HDFS源码分析(一)-----INode文件节点
前言在linux文件系统中,i-node节点一直是一个非常重要的设计,同样在HDFS中,也存在这样的一个类似的角色,不过他是一个全新的类,INode.class,后面的目录类等等都是他的子类。最近学习了部分HDFS的源码结构,就好好理一理这方面的知识,帮助大家更好的从深层次了解Hadoop分布式系统文件。HDFS文件相关的类设计在HDFS中与文件相关的类主要有这么几个1.INode--这个就是最底原创 2015-08-11 23:18:49 · 7601 阅读 · 1 评论 -
HDFS源码分析(二)-----元数据备份机制
前言在Hadoop中,所有的元数据的保存都是在namenode节点之中,每次重新启动整个集群,Hadoop都需要从这些持久化了的文件中恢复数据到内存中,然后通过镜像和编辑日志文件进行定期的扫描与合并,ok,这些稍微了解Hadoop的人应该都知道,这不就是SecondNameNode干的事情嘛,但是很多人只是了解此机制的表象,内部的一些实现机理估计不是每个人都又去深究过,你能想象在写入编辑日志的过程原创 2015-08-15 17:47:02 · 4854 阅读 · 3 评论 -
HDFS源码分析(三)-----数据块关系基本结构
前言正如我在前面的文章中曾经写过,在HDFS中存在着两大关系模块,一个是文件与block数据块的关系,简称为第一关系,但是相比于第一个关系清晰的结构关系,HDFS的第二关系就没有这么简单了,第二关系自然是与数据节点相关,就是数据块与数据节点的映射关系,里面的有些过程的确是错综复杂的,这个也很好理解嘛,本身block块就很多,而且还有副本设置,然后一旦集群规模扩大,数据节点的数量也将会变大,如何处理原创 2015-08-18 23:38:15 · 5889 阅读 · 1 评论 -
HDFS源码分析(四)-----节点Decommission机制
前言在Hadoop集群中,按照集群规模来划分,规模可大可小,大的例如百度,据说有4000台规模大小的Hadoop集群,小的话,几十台机器组成的集群也都是存在的。但是不论说是大型的集群以及小规模的集群,都免不了出现节点故障的情况,尤其是超大型的集群,节点故障几乎天天发生,因此如何做到正确,稳妥的故障情况处理,就显得很重要了,这里提供一个在Hadoop集群中可以想到的办法,就是Decommission原创 2015-08-20 08:33:13 · 8037 阅读 · 0 评论 -
YARN源码分析(四)-----Journalnode
前言最近在排查公司Hadoop集群性能问题时,发现Hadoop集群整体处理速度非常缓慢,平时只需要跑几十分钟的任务时间一下子上张到了个把小时,起初怀疑是网络原因,后来证明的确是有一部分这块的原因,但是过了没几天,问题又重现了,这次就比较难定位问题了,后来分析hdfs请求日志和Ganglia的各项监控指标,发现namenode的挤压请求数持续比较大,说明namenode处理速度异常,然后进而分析出是原创 2015-09-13 15:12:37 · 16497 阅读 · 4 评论 -
Hadoop内部的限流机制
前言文章标题一开始提及到了一个令人感到有些抽象又显得有些很"大"的词,限流.其实这个词语在很多行业都可以用到,比如最近春运,各大主要城市,火车站,地铁站都要做到限流吧,避免人流量过大造成事故或间接事故,这叫人流量限流,同理也可以用在车流量上.如果基于这个背景,把这里的人群和车辆抽象为数据,对数据进行限流,就是本篇文章的主题了.可能就有人疑惑了,数据为什么要做限流,怎么做限流,有什么好处呢,带着这个原创 2016-02-07 18:38:21 · 8998 阅读 · 3 评论 -
NameNode处理上报block块逻辑分析
前言在hadoop集群中,一个datanode执行启动操作后,会在namenode中进行节点的注册,然后namenode会与这个新注册的datanode通过心跳的形式,进行信息的传输,一方面datanode将会汇报自身的block块的情况,另一方面然后namenode接受到这些块后,进行一段分析,然后返回datanode相应的反馈命令.同时这个操作也用来判断,节点是否已经是dead状态了.但是这个原创 2016-01-29 14:43:33 · 9488 阅读 · 5 评论 -
HDFS邻近信息块BlockInfoContiguous
前言在HDFS中,数据的存储是以Block块的形式进行组织的.而每个块的默认副本数是3个,所以一般每个在HDFS中会存在3个相同的block块分布在不同的DataNode节点之上.所以在每个DataNode上,会存储着大量的block,那么这些块是如何被组织,联系起来的的呢,HDFS在添加块,移除块时是如何操作这些block块以及对应的关联信息呢,链表?数组?HashMap?答案就在BlockIn原创 2016-02-12 15:56:08 · 3863 阅读 · 1 评论 -
DataNode数据处理中心DataXceiver
前言最近在CSDN的首页上看到了hadoop十周年的文章,不禁感慨这真是一个伟大的系统啊.在这十年间,hadoop自身进行了许多演化和大的改变,而在其下,也孵化出了许多子项目,围绕着hadoop的生态圈现在变得越来越丰富了.所以作为一个出色的分布式系统,他有很多地方值得我们学习,最近本人在研究DataXceiver方面的代码,此篇文章算是这几天学习的一个总结吧.为什么选择学习DataXceiver原创 2016-02-02 14:53:57 · 7464 阅读 · 3 评论 -
从DFSOutputStream的pipeline写机制到Streamer线程泄漏问题
前言之前一段时间写了篇文章DataNode数据处理中心DataXceiver从大的方向了解了下datanode读写操作的过程.但是并没有具体细粒度的去关注读写操作中的细节以及可能存在的问题,本篇文章算是对这方面的一个补充吧.尽管本文所涉及的范围面看起来很窄,但是所呈现出来的结果一定会让你有所收获的.DFSOutputStream写数据以及周边相关类,变量本文主要阐述的datanode写数据的过程,原创 2016-02-18 20:10:16 · 7552 阅读 · 1 评论 -
HDFS对象存储--Ozone架构设计
现在做云存储的公司很多,举2个比较典型的AWS的S3和阿里云.他们都提供了一个叫做**对象存储**的服务,就是目标数据是从Object中进行读写的,然后可以通过key来获取对应的Object,就是所谓的key-object的存储.这样的好处就在于用户使用起来很方便的,不需要走冗杂的操作流程.但是本文所要阐述的则是HDFS中的对象存储,对于这样的需求,Hadoop作为一套完善的分布式系统,当然也要与时俱进翻译 2016-03-06 12:01:39 · 8535 阅读 · 2 评论 -
HDFS镜像文件的解析与反解析
前言HDFS作为一套成熟的分布式文件系统,其上可以存储上千万个文件,这些大大小小的文件存储着海量的数据.随着数据的变多,其中的安全性就显得非常的重要.但是在其中,有一类数据同样非常重要,那就是元数据,也就是所谓的描述数据的数据.为什么说他重要呢,举个例子,元数据就像一本书的目录信息,书中的具体内容就是真实的数据,如果有一天这本书的目录信息没了,那么你怎么迅速查阅里面的信息呢?可能你会想这本原创 2016-03-22 19:38:18 · 7523 阅读 · 5 评论 -
HDFS数据迁移解决方案之DistCp工具的巧妙使用
前言在当今每日信息量巨大的社会中,源源不断的数据需要被安全的存储.等到数据的规模越来越大的时候,也许瓶颈就来了,没有存储空间了.这时候怎么办,你也许会说,加机器解决,显然这是一个很简单直接但是又显得有些欠缺思考的办法.无谓的加机器只会带来无限上升的成本消耗,更好的办法应该是做到更加精细化的数据存储与管理,比如说非常典型的冷热数据的存储.对于巨大的长期无用的冷数据而言,应该用性能偏弱,但是磁盘空间富余原创 2016-04-05 12:14:02 · 22739 阅读 · 6 评论