什么是大数据

什么才是大数据

 

        大数据相关的技术和工具非常多,给企业提供了很多的选择。在未来,还会继续出现新的技术和工具,如Hadoop分发、下一代数据仓库等,这也是大数据领域的创新热点。但是什么才是大数据可能很多人会认为数据量大就是大数据,其实不然所谓大数据是结合数据的条数+单个数据文件的大小综合衡量得出,而这其中则包括如何快速精准定位到单条数据和快速传输数据等多项相关技术。

  那么我们企业到底该选用什么技术?才能保证我们的系统或者软件摆脱大数据的瓶颈呢?

  可能大家都知道TDWI(数据仓库研究所)对现有的大部分技术和工具进行了调查,以现在及未来三年内企业接受度和增长率两个维度进行划分,这些技术和工具可分成四类。

  从中分析得出企业最需要关注的是第1类中的技术和工具,它们最有可能成为最佳的实施工具,有很多人认为这代表了大数据技术的发展方向。我们认为这是一个误区。

  对于我们真实使用及使用过程中,只有基于云的数据分析及分布式平台进行数据处理才能趋于完善。

  很多企业越来越希望能将自己的各类应用程序及基础设施转移到云平台上。就像其他IT系统那样,大数据的分析工具和数据库也将走向云计算。云计算不单单是硬件的叠加,它必须结合分布式内核调用和内存计算,同时如果你想更快速的定位那就需要将算法迁入其中。

 

云计算能为大数据带来哪些变化呢?

 

  首先云计算为大数据提供了可以弹性扩展、相对便宜的存储空间和计算资源(请记住这不单单说的是硬件的叠加,我们的要考虑的是软件层面的控制和管理,线程池/内存锁/域空间/层级都是必可少的考虑因素),使得中小企业也可以像亚马逊一样通过云计算来完成大数据分析。

  其次,云计算IT资源庞大、分布较为广泛,是异构系统较多的企业及时准确处理数据的有力方式,甚至是唯一的方式。(此时的传输效率就会成为我们应该去考虑的问题,量子数据传输系统为我么提供了非常好的解决方案)

  当然,大数据要走向云计算,还有赖于数据通信带宽的提高和云资源池的建设,需要确保原始数据能迁移到云环境以及资源池可以随需弹性扩展。

数据分析集逐步扩大,企业级数据仓库将成为主流如现有的NOSQL,内存性数据库等,更加便宜和迅速,成为企业业务经营的好助手,甚至可以改变许多行业的经营方式。

 

舆情早报网大数据的商业模式与架构

 

         我们不得不承认云计算及其分布式结构是重要途径大数据处理技术正在改变目前计算机的运行模式,正在改变着这个世界:它能处理几乎各种类型的海量数据,无论是微博、文章、电子邮件、文档、音频、视频,还是其它形态的数据;它工作的速度非常快速:实际上几乎实时;它具有普及性:因为它所用的都是最普通低成本的硬件,而云计算它将计算任务分布在大量计算机构成的资源池上,使用户能够按需获取计算力、存储空间和信息服务。云计算及其技术给了人们廉价获取巨量计算和存储的能力,云计算分布式架构能够很好地支持大数据存储和处理需求。这样的低成本硬件+低成本软件+低成本运维,更加经济和实用,使得大数据处理和利用成为可能。但这只是从投入来说我们可以有更多的弹性。

 

大数据的存储和管理----云数据库的必然

 

         很多人认为NoSQL就是云数据库,因为其处理数据的模式完全是分布于各种低成本服务器和存储磁盘,因此它可以帮助网页和各种交互性应用快速处理过程中的海量数据。

         它采用分布式技术结合了一系列技术,可以对海量数据进行实时分析,满足了大数据环境下一部分业务需求。

         但我说这是一个错误,至少不是完整的,不能或无法彻底解决大数据存储管理需求。不可否认云计算对关系型数据库的发展将产生巨大的影响,而绝大多数大型业务系统(如银行、证券交易等)、电子商务系统所使用的数据库还是基于关系型的数据库,随着云计算的大量应用,势必对这些系统的构建产生影响,进而影响整个业务系统及电子商务技术的发展和系统的运行模式。

         而基于关系型数据库服务的云数据库产品将是云数据库的主要发展方向,云数据库(CiiDB),提供了海量数据的并行处理能力和良好的可伸缩性等特性,提供同时支持在在线分析处理( CRD)和在线事务处理(CRD) 能力,提供了超强性能的数据库云服务,并成为集群环境和云计算环境的理想平台。它是一个高度可扩展、安全和可容错的软件系统,客户能通过整合降低IT成本,管理位于多个数据,提高所有应用程序的性能和实时性做出更好的业务决策服务。

         我们认为CII分布式结构粒度数据结构数据仓库才是大数据处理的未来。它包含量子数据传输系统(有效解决数据传输的瓶颈)/高效压缩系统(压缩比例128:1)/云智能粒度层级分布式系统。

         当人们从大数据分析中尝到甜头以后,数据分析集就会逐步扩大。目前大部分的企业所分析的数据量一般以TB为单位。按照目前数据的发展速度,很快将会进入PB时代。特别是目前在100-500TB和500+TB范围的分析数据集的数量会呈3倍或4倍增长。

随着数据分析集的扩大,以前部门层级的数据集市将不能满足大数据分析的需求,它们将成为企业级数据库(EDW)的一个子集。有一部分用户已经在使用企业级数据仓库,未来这一占比将会更高。传统分析数据库可以正常持续,但是会有一些变化,一方面,数据集市和操作性数据存储(ODS)的数量会减少,另一方面,传统的数据库厂商会提升它们产品的数据容量,细目数据和数据类型,以满足大数据分析的需要。

         这就是我们所说的分布式结构粒度数据结构数据仓库,而如何做好大数据处理,舆情早报网已经做到了。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值