大数据、云及解析

       大数据(Big Data)是今天讨论最为频繁的热词,它带来的诸多巨大挑战和复杂问题让全世界的技术人员都应接不暇。大数据指的是数量庞大的结构化及未结构化的数据。结构化数据可以按预定义的表模式分类并保存。例如,当我们提交在线支付表单时,要求提供的元数据信息是事先预设的,并可以按照明确定义的模式进行存储。半结构化或者未结构化的数据,则更像是一种自由形式的数据,不遵从任何特定模式,也难以解析和处理。例如推特上出现的带“#”的标签、脸书的更新、评论和提及、日志、维基百科里的栏目和子栏目等等。

 

       各机构从与其业务相关的多个来源捕捉数据。最近几年,捕捉到的数据量在飞速增长,而数据管理则一直是一个亟需解决的难题。大数据使得这个问题难上加难,难点主要集中于以下几个方面:

 

-          捕捉到的数据数量庞大,并且每天都在增加。每天很难在当天就把收集到的数据处理完。数据来源多种多样,其中包括但不限于以下方面:

  •          数以百万计的金融交易;
  •          社交媒体更新;
  •          员工进进出出的记录;
  •          酒店宾客档案及喜好记录;
  •          每天数十万次的航班记录;
  •          通过卫星转播的信息;
  •          每日新闻;
  •          个人病史和医疗记录等。.

 

       据维基百科披露,2012年平均每天就有3亿4千万条推特发布。想像一下每天社交媒体的更新和照片上传数量会有多少。上述数据不仅数量庞大,而且还在飞速增长。

 

       这就产生了诸多存储难题,需要具有创新性的存储方案加以解决。我们不仅需要有效的存储解决方案,而且还需要更快、更有效的数据传输技术。三年前绰绰有余的存储能力,已经不足以应付今天生成的海量数据。从长远看横向拓展并非最佳解决方案。它只能解决规模需求,却无法解决速度问题。针对通过存储来自多个集群的数据来实现数据对分布式系统的实时读取的存储方法,必须采取新技术加以改进,而上述新技术则可能需要新的协议。

 

-         要处理庞大的数据集,就需要海量的计算周期和时间。我们需要强大的智能并行处理系统,它们可以快速而妥善地对大型数据集进行处理。在这方面,谷歌是领军者,该公司开发的著名的 MapReduce框架就能够解决这一问题。这个框架已经颇具人气,而且在该领域已经实实在在地得到了考虑。Apache Hadoop MapReduce中的一个开源应用,现在已经得到广泛的使用。而 Hadoop及其技术生态系统则是一种分布式处理框架。

 

-         在被捕捉到的数据中,有一大部分是未结构化或半结构化的数据。比如推特、社交媒体更新、博文、图片等数据,都是未结构化的数据。从中剥离出有用的信息就是一个挑战。传统的逻辑数据库只对结构化数据有效。为了有效地存储和查询未结构化的数据,已经出现了像 NoSql 这样的数据库解决方案。基于 Nosql原理,谷歌、脸书等公司已开发出专门用于存储和处理未结构化数据的数据库。所以说,好的数据分析解决方案将有助于发掘和提取实用的信息。

 

云的帮助

        云并不会为大数据问题提供直接的解决方案,但却有助于问题的解决。以往各机构通过建立自己的数据中心来存储和处理数据。但数据中心的建立和维护耗资巨大,而云则有助于在这方面帮助节约成本。无法承担自身基础设施的中小企业可以使用云来存储和处理数据。IaaS(基础设施即服务)和PaaS(平台及服务)都能提供有成本效益的解决方案。使用第三方的 IaaSPaaS解决方案有一个巨大的优势,就是可以出于需要而大幅度地增加或缩减规模。

       基于云的数据处理解决方案现在已经开始产生不错的附加值。谷歌已经开始通过云提供数据分析 ( OLAP )服务。这项服务称为 Google BigQuery,能够提供基于 SQL 的大型和超大型数据集的查询和分析服务。该服务作为基于 REST web 服务发布,并同时发布了专用的浏览器工具。

 

       当然,关于云还有一个需要考虑的重要方面数据安全。在采用公共云之前,用户应该了解公共云内存储数据的多种安全问题。

 

解析

       仅用于保存记录而存储的数据没有太多价值。真正的价值在于提取数据内潜藏的有用信息。各机构发掘并分析数据,分离出对自身制定重大商业决定有用的信息。这在传统上被称为商业智能。商业智能步骤很复杂,但对处理结构化的关系型数据而言,还是较为简单的。而从超大数量的半结构化或者未结构化数据中发掘信息情况就完全不同。传统的数据栈和数据挖掘技术可能无法完成这项任务,而需要更为复杂的措施。也许我们可以从 SIEM 系统中找到灵感,这种系统可在安全域中处理大量的半结构化数据。SIEM,或者说安全信息或事件管理系统可从多种网络资源(如路由器、交换机等)及杀毒软件等应用程序中收集安全相关数据和事件记录,并立即挖掘这些信息,以探寻潜在的安全漏洞并生成报警信息。这些系统使用错综复杂的规则关联来自不同资源的数据并分析这些数据。

       TeradataIBM等公司已经开发了各自的分析解决方案。相对而言,这是一个利基领域,蕴藏着巨大的商机,而且这些公司就是先行者。

 

总结

       大数据的出现已经有一段时间了。现在大数据之所以呈病毒式爆发发展,是因为不断扩张的社交网络、数据共享和交易过程所造成的。

       在此期间,谷歌、脸书等公司已开发了一些值得称道的技术,并把这些技术公布于世,从而迈出了一大步。这就为大数据解决方案供应商们开创了先河,并为更好地解决这些问题的新科技的发展铺平了道路。多股强大的工业力量正在携手共同致力于未来的科技发展,这将有助于缓解大数据周边弥漫的紧张气息。我们现在需要的是一个强大的应用程序生态系统,一个有能力处理大数据的生态系统。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值