存储技术趋势预测与分析

 存储技术趋势预测与分析

 

信息计算现已进入以数据为中心的时代,存储行业是目前最热门的领域之一。面对不断出现的存储需求新挑战,我们该如何把握存储的未来发展方向呢?本人根据自己的经验和理解尝试预测和分析一下存储的未来技术趋势,与存储同行分享,不当之处还请大家批评指正。

 

1、存储虚拟化

 

 存储虚拟化是目前以及未来的存储技术热点,它其实并不算是什么全新的概念,RAID、LVM、SWAP、VM、文件系统等这些都归属于其范畴。存储的虚拟化技术有很多优点,比如提高存储利用效率和性能,简化存储管理复杂性,绿色节省,降低运营成本等。现代数据应用在存储容量、I/O性能、可用性、可靠性、利用效率、管理、业务连续性等方面对存储系统不断提出更高的需求,基于存储虚拟化提供的解决方案可以帮助数据中心应对这些新的挑战,有效整合各种异构存储资源,消除信息孤岛,保持高效数据流动与共享,合理规划数据中心扩容,简化存储管理以及绿色节能等。目前最新的存储虚拟化技术有自动分级存储(HSM)、自动精减配置(Thin provision)、云存储(Cloud storage)、分布式文件系统(Distributed file system),另外还有诸如动态内存分区、SAN和NAS虚拟化。虚拟化可以柔性地解决不断出现的新存储需求问题,因此我们可以断言存储虚拟化仍将是未来存储的发展趋势之一,当前的虚拟化技术会得到长足发展,未来新虚拟化技术将层出不穷。

 

2、固态硬盘

 

 固态硬盘(SSD, solid state disk)是目前倍受存储界广泛关注的存储新技术,它被看作是一种革命性的存储技术,可能会给存储行业甚至计算机体系结构带来深刻变革。在计算机系统内部,L1 cache、L2 cache、总线、内存、外存、网络接口等存储层次之间,目前来看内存与外存之间的存储鸿沟最大,磁盘I/O通常成为系统性能瓶颈。SSD与传统磁盘不同,它是一种电子器件而非物理机械装置,它具有体积小、能耗小、搞干扰能力强、寻址时间极小(甚至可以忽略不计)、IOPS高、I/O性能高等特点。因此,SSD可以有效缩短内存与外存之间的存储鸿沟,计算机系统中原本为解决I/O性能瓶颈的诸多组件和技术的作用将变得越来越微不足道,甚至最终将被淘汰出局。试想,如果SSD性能达到内存甚至L1/L2 cache,后者的存在还有什么意义,数据预读和缓存技术也将不再需要,计算机体系结构也将会随之发生重大变革。对于存储系统来说,SSD最大突破是大幅提高了IOPS,摩尔定理的效力再次显现,通过简单地用SSD替换传统磁盘,就可能可以达到和超越综合运用缓存、预读、高并发、数据局部性、磁盘调度策略等软件技术的效用。SSD目前对IOPS要求高的存储应用最为有效,主要是大量随机读写应用,这类应用包括互联网行业和CDN行业的海量小文件存储与访问(图片、网页)、数据分析与挖掘领域的OLTP等。SSD已经开始被广泛接受并应用,当前主要的限制因素包括价格、使用寿命、写性能抖动等。从最近两年的发展情况来看,这些问题都在不断地改善和解决,SSD的发展和广泛应用将势不可挡。

 

3、重复数据删除

 

 重复数据删除(Deduplication)是一种目前主流且非常热门的存储技术,可对存储容量进行有效优化。它通过删除数据集中重复的数据,只保留其中一份,从而消除冗余数据。这种技术可以很大程度上减少对物理存储空间的需求,从而满足日益增长的数据存储需求。Dedupe技术可以帮助众多应用降低数据存储量,节省网络带宽,提高存储效率、减小备份窗口,节省成本。Dedupe技术目前大量应用于数据备份与归档系统,因为对数据进行多次备份后,存在大量重复数据,非常适合这种技术。事实上,dedupe技术可以用于很多场合,包括在线数据、近线数据、离线数据存储系统,可以在文件系统、卷管理器、NAS、SAN中实施。Dedupe也可以用于数据容灾、数据传输与同步,作为一种数据压缩技术可用于数据打包。为什么dedupe技术目前主要应用于数据备份领域,而其他领域应用少呢?这主要由两方面的原因决定的,一是数据备份应用数据重复率高,非常适合dedupe技术。二是dedupe技术的缺陷,主要是数据安全、性能。dedupe使用hash指纹来识别相同数据,存在产生数据碰撞并破坏数据的可能性。dedupe需要进行数据块切分、数据块指纹计算和数据块检索,消耗可观的系统资源,对存储系统性能产生影响。信息呈现的指数级增长方式给存储容量带来巨大的压力,而dedupe是最为行之有效的解决方案,因此固然其有一定的不足,它大行其道的技术趋势无法改变。更低碰撞概率的hash函数、多核、GPU、SSD等,这些技术推动dedupe走向成熟,由作为一种产品而转向作为一种功能,逐渐应用到近线和在线存储系统。ZFS已经原生地支持dedupe技术,我们相信将会不断有更多的文件系统、存储系统支持这一功能。

 

4、云存储

 

 云计算无疑是现在最热门的IT话题,不管是商业噱头还是IT技术趋势,它都已经融入了我们每个人工作与生活当中。云存储亦然。云存储即DaaS(存储即服务),专注于向用户提供以互联网为基础的在线存储服务。它的特点表现为弹性容量(理论上无限大)、按需付费、易于使用和管理。云存储主要涉及分布式存储(如分布式文件系统、IPSAN、数据同步、复制)、数据存储(如重复数据删除、数据压缩、数据编码)和数据保护(如RAID、CDP、快照、备份与容灾)等技术领域。从专业机构的市场分析预测和实际的发展情况来看,云存储的发展如火如荼,移动互联网的迅猛发展也起到了推波助澜的作用。目前典型的云存储服务主要有Amazon S3, Google storage, Microsoft SkyDrive, EMC Atmos/mozy, Dropbox, SugurSync,SyncPlicity, 中国电信e云, 中国移动139信箱, 世纪互联有备, 联想网盘, 金山快盘、数据银行、新浪微盘、QQ硬盘、360云盘。私有云存储目前发展情况不错,但是公有云存储发展不顺,用户仍持怀疑和观望态度。目前影响云存储普及应用的主要因素有性能瓶颈、安全性、标准与互操作、访问与管理、存储容量和价格。云存储终将离我们越来越近,这个趋势是不无可置疑的,但是终究到底还有多远?这由这些问题的解决程度决定。云存储将从私有云逐渐走向公有云,满足部分用户的存储、共享、同步、访问、备份需求,但是试图解决所有的存储问题也是不现实的,我姑且推测一下,2012年底云存储发展将进入一个崭新的发展阶段。

 

5、SOHO存储

 

 SOHO(Small office, home office)存储即家庭或个人存储。现代家庭中拥有多台PC、笔记本电脑、上网本、平板电脑、智能手机,这种情况业已非常普遍,这些设备将组成家庭网络。SOHO存储的数据主要来自个人文档、工作文档、软件与程序源码、电影与音乐、自拍视频与照片,部分数据需要在不同设备之间共享与同步,重要数据需要备份或者在不同设备之间复制多份,需要在多台设备之间协同搜索文件,需要多设备共享的存储空间等等。手机、数码相机和摄像机的普及和数字化技术的发展,以多媒体存储为主的SOHO存储需求突现。单部高清电影容量可以达到数GB、单张高质量照片体积可达数MB,这些内容的总容量往往能够达到几TB甚至数十TB,直连的硬盘无法满足这种日益增长的存储需求,用户面临的困境是存储空间似乎永远不够用。SOHO存储目前大致有两种思路,一是home NAS微型存储装置,提供文件级的集中共享存储空间,并在NAS提供数据备份和复制、数据管理、高级文件检索、多种数据访问协议和接口等功能。目前已经有一些存储厂商推出了此类产品,由于存在硬件设备并且价格低廉,用户的认可度比较高。二是p2p存储系统,利用软件系统将各个设备的存储空间统一起来,提供一个虚拟的集中共享存储空间,同样可以提供home NAS上的所有功能。p2p存储系统的一个问题是可用性,如果没有足够多的设备启动,这个系统就不能正常工作,而往往家庭中的设备都不会同时启动,因此可用性很难保证。此外,个人用户通常不大愿意为软件系统付费,所以这种思路目前来看是不可行的。SOHO存储的需求已经初步显现,还没有引起存储厂商的足够重视,但这块市场是非常巨大的,未来会不会出现家庭云存储呢?大家拭目以待吧。

 

6、ROBO存储

 

 ROBO(Remote office, branch office)存储即企业远程或分支机构存储。大的公司或组织机构会有多个子公司或分支机构组成,物理分布在世界上不同的城市。互联网使得世界变得非常平坦,分布式协作越来越为重要,我们甚至可以遐想未来很多企业甚至不需要集中的办公场所,员工在家办公即可。ROBO存储正是为了应对这种基于互联网的协作式工作模式而产生的。ROBO存储的需求主要集中在数据同步、共享、分发、协作,传统的上传/下载模式文件服务难以满足这种需求,天然地需要基于互联网的广域分布式文件系统。由于互联网的低带宽、高延迟、安全性等因素影响,ROBO存储面临巨大的挑战,像NAS/CIFS/AFS这类系统都无法在互联网上很好工作。针对ROBO存储,通常在公司总部部署集中式存储系统保存所有的数据,在每个子公司部署较小的存储节点,然后通过高速网络互联,并提供高效的数据同步、分发、数据缓存等机制,尽量减少数据通信量以提高性能和实时性。目前ROBO存储似乎还没有成熟的解决方案,广域网分布式文件系统现在也很少被提及,挑战性显而易见,然后,潜在需求是推动技术发展的最好动力,我们有理由相信ROBO存储终会成为一种存储趋势。

7、语义化检索

 

 数据检索目前主要分为两类,一是基于文件名,二是基于文件内容。主流文件系统的数据检索都是基于文件名进行的,桌面搜索引擎则综合文件名和文件内容进行检索,前者遍历文件系统元数据,后者需要解析文件内容,它们都是通过关键字匹配来实现检索。显然,这两类检索的语义是非常有限的,与人类思维方式有着很大的区别。人类对事物的检索往往通过事物的属性以及与其他事物于其的联系来实现,例如人肉搜索一个人,我们通过性别、交通工具、外貌等基本特征以及社会关系来定位,这些都可看作是基于语义的检索。文件本身就具备许多的属性,如文件名、大小、创建者、创建日期、文件类型、访问权限,同时也具有与其他文件的联系,如处于相同目录、相同的所有者、同时被访问、文件集的组成部分等,此外还可以标注额外的属性和关系。因此,存储系统完全可以实现语义化的检索,通过文件属性和关系来检索文件,并用关系网络(类似社会化网络)来表示检索结果。这种方式语义上更加丰富,检索结果更加精确,也更加符合人类的思维方式。目前存储方面的语义化检索产品基本是空白,业界当前主要研究还是集中在基于内容分析的数据检索,但也有一些先行者在从事这方面的工作,而且语义网的研究成果可以为此提供许多基础,比如语义的标识、知识表示以及推理等。面对海量的数据,精确、高效地检索出自己需要的数据是第一步,语义化检索符合存储的技术发展趋势。

 

8、存储智能化

 

 人工智能是计算机的发展方向,这是个理想而艰巨的目标。对于存储系统来说,智能化代表着自动化、自适应、兼容性、自治管理、弹性应用,通过对系统的监控、分析和挖掘来发现数据应用的特点和使用者的行为模式并动态调整配置,从而达到最佳的运行状态。存储智能化可以分别在存储系统栈中的不同层次实现,包括磁盘、RAID、卷管理器、文件系统、NAS系统、应用系统,从而形成系统的存储智能化。目前存储智能化已经有许多应用,例如,自动分级存储根据数据的访问频度在不同存储层级间流动,数据卷大小自动调整,文件系统根据文件大小采用不同的数据块大小,数据自动迁移与复制,数据诊断与自动纠错。存储智能化整体水平目前还很低,巨大容量、高性能、高可用性、高可靠性、高可扩性、高安全性的存储系统实现和管理仍然非常艰巨和复杂。虽然我们已经取得了一定的成果,但离真正的目标差距还很大,存储学术界和业界都在这此而努力。智慧的存储,让数据在整个信息生命周期内有序、高效、自治,存储效用最大化、简化管理、减少人工干预,这应该是存储的大趋势。

 

本文转至: http://blog.csdn.net/liuben/archive/2010/11/28/6041778.aspx

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据分析技术与方法 20150108 数据分析方法与技术全文共66页,当前为第1页。 2 数据分析时代背景 第一部分 数据分析平台技术 第二部分 数据仓库建模方法 第三部分 目 录 数据分析与数据挖掘 第四部分 数据分析方法与技术全文共66页,当前为第2页。 数据量增加 TB PB ZB EB 根据IDC 监测,人类产生的数据量正在呈指数级增长,大约每两年翻一番,这个速度在2020 年之前会继续保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量。 数据结构日趋复杂 大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长 这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴 大数据时代正在来临… 数据分析时代的背景 数据分析方法与技术全文共66页,当前为第3页。 体量Volume 多样性Variety 价值密度Value 速度Velocity 非结构化数据的超大规模和增长 占总数据量的80~90% 比结构化数据增长快10倍到50倍 是传统数据仓库的10倍到50倍 大数据的异构和多样性 很多不同形式(文本、图像、视频、机器数据) 无模式或者模式不明显 不连贯的语法或句义 大量的不相关信息 对未来趋势与模式的可预测分析 深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等) 实时分析而非批量式分析 数据输入、处理与丢弃 立竿见影而非事后见效 大数据的4V特征 "大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)" 数据分析方法与技术全文共66页,当前为第4页。 Volume 海量的数据规模 Variety 多样的数据类型 Value Velocity 快速的数据流转 发现数据价值 要解决的问题 大数据技术被设计用于在成本可承受的条件下,通过非常快速(velocity)地采集、发现和分析,从大量(volumes)、多类别(variety)的数据中提取数据价值(value),将是IT 领域新一代的技术与架构。 数据分析方法与技术全文共66页,当前为第5页。 分析技术: 统计和分析:A/B test; top N排行榜;地域占比;文本情感分析 数据挖掘:关联规则分析;分类;聚类 模型预测预测模型;机器学习;建模仿真 数据处理相关技术 海量数据存储: 结构化数据: 海量数据的查询、统计、更新等操作效率低 非结构化数据 图片、视频、word、pdf、ppt等文件存储 不利于检索、查询和存储 半结构化数据 转换为结构化存储 按照非结构化存储 解决方案: Hadoop(MapReduce技术) 流计算(twitter的storm和yahoo!的S4) Spark(基于内存的分布式计算) 大数据技术: 数据采集:ETL工具 数据存取:关系数据库;NoSQL;SQL 基础架构支持:云存储;分布式文件系统 计算结果展现:云计算;标签云;关系图 数据分析方法与技术全文共66页,当前为第6页。 数据处理与分析框架 HIVE Pig! 分布式 文件系统 海量 数据存储 大规模计算 智能 分析算法 Zoo Keeper 明细数据 E T L 报表展示 数据分析 数据挖掘 元数据管理 数据质量监控 数据监控 数据集市 数据应用 汇总加工数据 数据应用 数据仓库 源数据 数据平台技术 数据仓库架构 数据采集 数据处理 数据分析方法与技术全文共66页,当前为第7页。 8 数据分析时代背景 第一部分 数据分析平台技术 第二部分 数据仓库建模方法 第三部分 HDFS+MapReduce+Hive Storm+Spark 数据分析与数据挖掘 第四部分 目 录 数据分析方法与技术全文共66页,当前为第8页。 9 不同分析场景解决方案 根据响应时长可以将应用需求进行如下划分: 实时应用场景(0~5s): Storm、S4、Cloudera Impala,Apache Drill等; 交互式场景(5s~1m): 最好支持SQL,: Shark 、Cloudera Impala、Apache Drill等; 非交互式场景(1m~1h): MapReduce、Hive、Pig、Stinger等; 批处理场景(1h+) 运行时间较长,处理数据量较大,对容错性和扩展性要求较高 MapReduce、Hive、Pig、Stinger等。 数据分析方法与技术全文共66页,当前为第9页。 Hadoop 生态系统 External Data Sources HDFS storage layer Processing Framework (Map-Reduce) HBase Sqoop + Flume Pig HiveQL Mahout Hive Metastore (HCatalog

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值