解密大数据

揭秘大数据

  大数据可谓是如今IT行业最热门的词汇之一,但是大数据到底是什么?大数据工程师到底做什么却很少有人能说得清楚。郭昕和孟晔出版书籍《大数据的力量》的给了我很多感悟,在此整理。

一、大数据到底是什么?

 

 

 

 

 

 

   大数据的“大”相比起传统数据,主要体现在三个“V”上,“volume”、“variety”、“velocity”即数据量很大,种类很多,数据产生和处理所要求的速度快。当然,还有人提出第四个“V”——“value”,即希望从数据之中获得更大的价值。


   大数据的量很大,身处这个时代的我们深有体会。从2013年至今,全球每年产生的数据每两年翻一番,大量的数据需要存储,因此我们的存储单位从原来的MBGBTBPBEB到如今的ZB级别。地球上每个人平均会产生5TB的数据,我们每次使用搜素引擎,每次点击网页,每次网上购物,甚至以后普及的可穿戴设备会忠实记录我们时时刻刻的行为,所有的这些都会产生数据,我们大概可以想象未来我们将淹没在数据的海洋里。
     

       大数据由于来源广泛(电子商务,网络冲浪,社交媒体,智能穿戴设备等),因此呈现的形态种类也非常繁杂多样(文字,图片,表格,视频,音乐等)。而且和传统的数据相比,现在的大数据绝大部分属于非结构化的数据,格式各异,长短不一,因此从大数据中提取有效信息则显得更加困难。

   大数据的产生的非常快,比如双2012年“双十一”,淘宝和天猫在一个小时内成交598万笔交易,而在这些交易之中用户的每次点击,每次浏览的偏好等都会产生大量的数据,分析这些数据可以准确预测最终的销售规模和用户习惯等问题。因此大数据不仅产生快,也要求我们具有快速分析数据的能力。
  

   大数据的量很大,身处这个时代的我们深有体会。从2013年至今,全球每年产生的数据每两年翻一番,大量的数据需要存储,因此我们的存储单位从原来的MBGBTBPBEB到如今的ZB级别。地球上每个人平均会产生5TB的数据,我们每次使用搜素引擎,每次点击网页,每次网上购物,甚至以后普及的可穿戴设备会忠实记录我们时时刻刻的行为,所有的这些都会产生数据,我们大概可以想象未来我们将淹没在数据的海洋里。
         

         大数据由于来源广泛(电子商务,网络冲浪,社交媒体,智能穿戴设备等),因此呈现的形态种类也非常繁杂多样(文字,图片,表格,视频,音乐等)。而且和传统的数据相比,现在的大数据绝大部分属于非结构化的数据,格式各异,长短不一,因此从大数据中提取有效信息则显得更加困难。


   大数据的产生的非常快,比如双2012年“双十一”,淘宝和天猫在一个小时内成交598万笔交易,而在这些交易之中用户的每次点击,每次浏览的偏好等都会产生大量的数据,分析这些数据可以准确预测最终的销售规模和用户习惯等问题。因此大数据不仅产生快,也要求我们具有快速分析数据的能力。


二、大数据的关键技术

1.数据挖掘

        广义上理解,数据挖掘即从数据中发现有价值的知识。但从狭义上理解,数据挖掘只是从数据中发现知识的步骤之一。即狭义的数据挖掘具体是指根据数据仓库中的数据信息,选择合适的分析工具,应用统计方法、事例推理、决策树、规则推理、模糊集,甚至神经网络、遗传算法的方法处理信息,得出有用的分析信息。还有很多其他的步骤这里不在罗列。


        数据挖掘的关键技术有关联分析、聚类分析、分类、预测、时序模式偏差分析等等。


       关联分析的目的是找出数据集合中隐含的关系,比如零售店的顾客可能会经常购买两种不同的商品

       分类是数据挖掘中的一项非常重要的任务,利用分类技术可以从数据集中提取描述数据类的一个函数或模型(也常称为分类器),并把数据集中的每个对象归结到某个已知的对象类中,从机器学习的观点,分类技术是一种有指导的学习,即每个训练样本的数据对象已经有类标识,通过学习可以形成表达数据对象与类标识间对应的知识。


   与分类技术不同,在机器学习中,聚类是一种无指导学习。也就是说,聚类是在预先不知道欲划分类的情况下,根据信息相似度原则进行信息聚类的一种方法。聚类的目的是使得属于同类别的对象之间的差别尽可能的小,而不同类别上的对象的差别尽可能的大。因此,聚类的意义就在于将观察到的内容组织成类分层结构,把类似的事物组织在一起。通过聚类,人们能够识别密集的和稀疏的区域,因而发现全局的分布模式,以及数据属性之间的有趣的关系。


        预测是利用历史记录,找出变化规律,建立模型,并由此模型对未来数据的种类特征进行预测。


        时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样,它也是用己知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。


        偏差分析,也称为离群点分析或者异常挖掘,数据集合中的的数据可能存在异常行为,发现这种异常行为是非常有必要的(比如发现金融欺诈行为)。


2.分布式计算hadoop

   分布式计算这个研究领域,主要研究分散系统(Distributed system)如何进行计算。分散系统是一组计算机,通过计算机网络相互链接与通信后形成的系统。把需要进行大量计算的工程数据分区成小块,由多台计算机分别计算,在上传运算结果后,将结果统一合并得出数据结论的科学。

 

  目前常见的分布式计算项目通常使用世界各地上千万志愿者计算机的闲置计算能力,通过互联网进行数据传输。如分析计算蛋白质的内部结构和相关药物的项目,该项目结构庞大,需要惊人的计算量,由一台电脑计算是不可能完成的。即使现在有了计算能力超强的超级电脑,但是一些科研机构的经费却又十分有限。

3.内存计算

    内存计算(In-Memory Computing),实质上就是CPU直接从内存而非硬盘上读取数据,并对数据进行计算、分析。此项技术是对传统数据处理方式的一种加速,是实现商务智能中海量数据分析和实施数据分析的关键应用技术。


           内存计算非常适合处理海量的数据,以及需要实时获得结果的数据。比如可以将一个企业近十年几乎所有的财务、营销、市场等各方面的数据一次性地保存在内存里,并在此基础上进行数据的分析。当企业需要做快速的账务分析,或要对市场进行分析时,内存计算就能够快速的按照需求完成。


    商务智能数据分析、数据挖掘加速器。内存相对于磁盘,其读写速度要快很多倍。对于商业智能应用而言,由于数据库一般都较大,少则几个GB,多则成百上千个GB,内存计算技术的出现,更好的支撑了商务智能技术的迅速发展。如在财务分析、业绩分析、库存分析、经济订购批量分析等企业经营关键指标分析实现技术应用。此技术能在金融、制造、服务、交通运输、国防等行业和部门内实现广泛应用。


         模拟分析预测应用。内存计算还可以模拟一些数据分析的结果,实现对市场未来发展的预测。内存计算这种高速分析工具的应用,可以帮助用户在事情没发生前假设各种场景,然后进行分析,以预测将要发生的事情。将能应用于需求性建模、航空天气预测、零售商品销量预测、产品定价策略等。


   在线交易处理(OLTP)和在线分析处理(OLAP)应用。其中OLTP系统需要对发生的业务进行实时记录,因此要处理的是大量简单、小规模、同时发生的交易;而OLAP系统是对OLTP提供的数据进行分析,以支持业务决策,因此处理的交易数量相对较少,但更为复杂。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值