SDS之Object Storage: 对象存储,老树开新花

本文的副标题是:

对象存储发展史  & “云大无人区”的时代,非结构化数据存储高耸出海面


备注:

1、云大无人区,其实就是云计算、大数据、物联网、人工智能、区块链的谐音记忆法。首见于《中国区块链从业者至少要读三遍的白皮书》。


2、非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。而结构化数据主要指数据库。


3、对象存储。为避免歧义,先要了解:1)对象存储有时指存储前端是否支持RestFul编程接口,也即对象接口的形式来访问存储空间;2)对象存储有时也指该存储设备的内部数据组织形式。在数据猛增的背景下,越来越多的存储设备内部采用对象存储的这种内部数据组织形式。例如商业的VMware vSAN,以及开源的Ceph OSD,这其实也代表着一定的趋势


对象存储是自包含、自愈合的智能存储设备,具有容量大、速度快、扩展灵活的特点。每一个对象除了存放数据本身之外,还存放了数据的元信息,例如创建的日期和时间,属主,大小,索引,保留周期,QoS等。对象本身使得数据的组织得到了简化,避免了传统存储文件目录树形结构的复杂,变为更为简单。而且对象的元信息,方便了海量数据的检索。如下图:

640?wx_fmt=png


 

---正文开始---


当下及未来,越来越多的数据将传感器和设备。根据Gartner分析2017年全球物联网设备数量超过全球人口(75亿),达到84亿2016年的64亿增长了31%2020年物联网设备数量将达到204亿。


IDC预测,2025年数字宇宙的数据总量将达到163 ZB,是2016年的10倍。而且,企业将取代消费者成为全球数据量产生的第一大主体,届时企业产生的数据量将占到全球数据总量的60%。这意味着存放非结构化数据的企业级存储将蓬勃发展,最近的收购案件或许能看出端倪,《二级存储的春天正在走来吗? -  软银欲以10亿美元的估值投资存储公司Cohesity》。


我曾在微信群里发起了关于数据存放的讨论,现分享一位朋友-颜林林的反馈:


“我再分享些我了解的信息(来自两个不同的科学研究领域):


(1) 比较早探讨是否需要把所有数据都保存下来的一个领域是天文学。现代天文学研究中,大多数人其实都不再是拿着望远镜去看星空了,而是在计算机上,对大量照片进行对比分析,这些照片来自大型望远镜,而这些望远镜会持续扫描天空的360度全景,按照一定频率去连续拍照片,覆盖整个星空。很多新的天文发现,其实是依靠这些照片去发现重复性的规律。由于图片分辨率很高(而且往往不止是红绿蓝三个通道,还包括很多不可见光的通道),所以图片都巨大。这是存储需求超大的机构和部门,好多年前就上EB了。科研上要求对发现有多证据的确认,所以在不同时间不同角度预期是会重复的,这就是说,过去发现的东西,在未来重新拍摄的照片中应该也会再发现。所以永久保留这些一手数据就不是那么必要了。更极端的情况,针对某个科研探索的问题,可以从问题提出起,实时地分析,分析完之后就扔掉,不做存储,只保留分析的结果(相对原始数据会小得多)。


(2) 另一个领域是近十年发展特别迅速的生物学(包括医学、农学等),主要原因是高通量测序仪技术的发展,我们现在做临床样本的测序和数据分析,每个样本就会产出几十GB的数据(这还不算更原始的图片数据)。跟天文学类似,大家也在讨论要不要保留所有的数据。于是会去计算重新跑一次测序(一般成本会在几万到几十万不等)得到数据,和长期保存这些数据,所需要的成本,哪个会更便宜。当然,这里面还有个问题,对于某些珍贵样本,一旦用掉就再没法找到的,那就不得不永久保留数据啦。“


除了基因测序,视频监控,照片摄像、文档影像,日志记录等等都是大量产生数据的领域。我觉得,客观而言,不是所有新产生的数据都需要存储。但如果单位GB的成本足够低,原来不得不放弃的数据就可以留存了,因为其中有些数据将来有机会成为大数据的金矿。


IDC发现,数字宇宙中,新增数据有超过80%都是非结构化数据。如下图所示:


640?wx_fmt=png


IDC还预测:“基于对象的存储预计将在2016年到2020年期间实现30.7%年均复合增长率,到2020年其总体存储容量将达到293.7 EB。而在2020年,由此支持的对象存储市场将拥有高达198亿美元总值。”


这意味着:1)非结构化数据迅猛增加;2)对象存储的潜在市场空间巨大;


原来SAN或NAS可以应对TB~PB级存储规模,但当海量数据发展到PB~EB级存储规模时,内部组织结构按照树状结构、文件系统形态的传统存储可能就力不从心了。此时,采用对象存储就成了非常好的选择


如下图所示,传统等级的树形结构(要想象一下,如果有几十亿甚至几百亿的文件,怎么办)改变成扁平结构,采用键值对(”key= value”)的方式,类似下面中间图的OIDs->Object

640?wx_fmt=png


采用对象存储,存储容量和扩展性得到了明显的提升,最大可支持的裸容量通常都在数百PB甚至EB的访问以上。而且得益于扁平结构,检索数据的速度也变快了。


由于传统SAN或NAS基于块的存储设备管理的是不透明的数据块,因此存储设备对实际使用它们的用户和应用一无所知。而对象存储能够理解存储设备上块与块之间的部分关系,并能利用这些信息更好地组织数据和预估需求,实现基于策略驱动的自动化,以适应前端在SLA方面的变化。 


对象存储设备(Object-Based Storage Device)的出现,存储设备开始具备记录、学习并适应其所处操作环境特性的能力。


但是,需指出的是,如果是高性能低延迟,类似数据库场景,传统SAN当下仍具一定优势,但这种差异优势在闪存硬件的助力下会抹平不少。


对象存储很早就有,我2006任职EMC时就有所接触了,常听到的案例就是青岛大学医学院附属医院PACS使用了EMC Centera管理影像信息。觉得这种存储形态很有趣,迥异于其他EMC存储设备。它具有固定内容、在线存取、分布式多节点、去重、自检和自愈、长期保存等特点。


640?wx_fmt=png



实际上,对象存储最早出现于1998年,那时还叫做内容寻址存储(CAS)。而1998年诞生等FilePool就是EMC Centera的前身。


640?wx_fmt=jpeg


这么多年来,对象存储发展得不温不火,我想可能有如下原因:


1)如果不采用NAS网关,需要了解编程接口,才能和前端应用紧密继承,构成巨大的挑战;

2)自CAS诞生的15年以来,对于绝大多数用户文件个数和数据量还没有大到必须采用对象存储的迫切程度;

3)彼时采用的仍是专用设备,成本并不具优势;


最近5年以来,随着云计算、大数据的普及,物联网、人工智能、区块链在各行各业的逐渐渗透,也即身处“云大无人区”的时代,已经有越来越多的用户拥有超过PB,甚至EB级别的用户,或者拥有数十亿乃至数千亿的文件,采用对象存储来存放非结构化数据,逐渐变得越来越迫切。另外,随着软件定义存储的深入人心,对象存储采用的硬件设备也开始标准化,成本得到节省。最后,越来越多的基础架构管理运维人员熟练掌握了编程技术,原有的挑战逐渐减少。


几个月前,我和国内知名的灾备厂商-英方的创始人胡军擎聊天时,了解到,已经有越来越多的用户使用i2DTO将数据备份、归档到私有云的对象存储,或者公有云的对象存储上,例如阿里云OSS上。也验证了我在3年前发表的《【PY原创】SDS 之四:软件定义存储的分类 (v2.0)》,所提到的 “从云存储来看,随着混合云的逐渐深入,用户自然会期待在自己的私有云和公有云之间,能够实现除了在VM/App级别,在存储级别,也能实现如同本地数据中心之间的同构存储之间的高级功能,例如备份、归档和容灾”


下面根据了解到的最新信息,更新一下SDS的分类图:

1) 在控制平面之上,也即HyperVisor/OS/Cloud增加了HuaweiCloud;

2) 在数据平面层,增加了云存储 HUAWEI OBS; ctyun OOS,和对象存储 

9Stor; OStorage;


640?wx_fmt=png


未完待续……。欢迎持续关注微信公众号“乐生活与爱IT”。


本文引用的部分文字、数字,来源于如下链接:


对象存储的发展历程揭秘

http://www.dostor.com/p/40639.html


IDC MarketScape: Worldwide Object-Based Storage 2016 Vendor Assessment

https://www-01.ibm.com/common/ssi/cgi-bin/ssialias?htmlfid=WUL12381USEN&


http://storage.chinabyte.com/213/14005713.shtml


http://baijiahao.baidu.com/s?id=1602517828617265270&wfr=spider&for=pc


https://www.storagenewsletter.com/2018/06/07/ww-enterprise-storage-market-exploding-up-34-y-y-in-1q18-to-13-billion-idc/


---End---


【编者Peter Ye按】

欢迎SDS、区块链方面的投稿。


下面列出微信公众号-乐生活与爱IT 曾经发表过的,和存储研发相关的文章:

SDS之HCI系列:分布式块存储的研发如何设计元数据服务?

谈谈存储系统开发

一个投资顾问兼研发老兵(RAID调度算法博士)的存储手记

【原创】Linda存储手记之二

【原创】Linda存储手记之三

【原创】Linda存储手记之四:剖析存储性能之延迟

【原创】Linda存储手记之五:说说support那些事

中国HCI市场38家列表 & 【原创】Linda存储手记之六


另外我已经建立了存储研发大拿群,人不要求多,但希望讨论能够深入。要求必须在一线存储研发至少5年以上。可以通过我的QQ号 9269216 来加入到这个微信群里,在QQ里加我为好友时,请告知您的中文姓名,目前所在的公司名称,担任的角色,从哪年到哪年的存储研发经验。越详细越好,越有机会被邀请进入,您将有机会和国内外各路存储研发大拿进行讨论。该微信群从第100人开始,除非我主动邀请,否则新加入的成员按照序号,在微信群里发不少于序号两倍的红包。例如第100个人,需要发200元的红包。这个微信群我会亲自管理,所有人员均由我来邀请,如果群内朋友有其他符合要求的需要推荐,请先和他/她沟通清楚,再将其介绍,以及微信名片发给我。邀请成功,会有红包感谢。


点击左下角“读原文”,可以跳转到一位存储研发老司机分享的文章《SDS之HCI系列:分布式块存储的研发如何设计元数据服务?

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值