了解大数据

前言

得益于云计算的发展,我们正处在信息大爆炸的时代,不仅个人产生的数据正在快速增长,计算机产生的数据更是如此,像机器日志,RFID检测仪,传感器网络,车载GPS和零售交易等所有这些都将产生巨量的数据。

为什么学习大数据

我们已经有了大量的数据。但这并没有什么用,就好像一堆破烂中的一粒金子。每个企业要想在这个时代取得竞争优势,就必须从这些数据中获取有价值的信息。因此我们还必须想办法去存锯并分析这些数据。


从以下成功案例中不难看出大数据的神奇魅力

  • 2014年谷歌的云计算平合成功预测了世界杯16强比赛每场比赛的胜利者。谷歌使用了来自 Opta sports(一家体育数据提供商)的数据,评估了每个职业足球联盟过去多个赛季的情况。以及世界杯小组赛期间的统计数据.根据对球员比赛前、比赛中表现的分析,谷歌预测了这些球员在随后比赛中将会有什么样的表现。
  • 沃尔玛(零售连锁超市)—啤酒与尿不湿。沃尔玛超市管理人员分析销售数据时发现了一个难于理解的现象 : 啤酒和尿不湿经常出现在同一个购物篮中。于是将啤酒和尿不湿两个看上去没有关系的商品摆放在一起进行销售,并获得了很好的销售收益。
  • 2014年推出的百度高考预测押中了全国18套作文考题中的12套。
  • 大数据已经在很多领域中得到广泛的应用,如推荐引擎、情感分析、风险建模、欺诈检测、营销活动分析、客户流失分析、社交图谱分析、用户体验分析、网络监控、产品设计等。作为技术人员,大数据为我们带来了广阔的职业发展空间,能够将我们现有的项目进行扩展、升级。目前大
    数据比较热门的就业方向有以下几种
  • 大数据系统研发工程师:负开发大数据分析处理系统,如接下来要学习的Hadoop。
  • 大数据应用开发工程师:负责在大数据分析处理系统上开发大数据处理的应用
  • 大数据可视化工程师 :负责将数据以图像等可视化的形式展示给用户
  • 大数据分析师:负责发现数据的价值,设计数据分析的算法。

什么是大数据

大数据是指无法在一定时间内用常规件工具对其内容进行抓取,管理和处理的数据集合。简而言之就是数据量非常大。大到无法用常规工具处理,如关系型数据库,数据仓库等
,这里的“大‘’是一个什么量级呢?如阿里巴巴每天所处理的交易数据达到20PB(即20971520GB)。传统数据处理技术为何不能胜任?主要原因是关系型数据库是针对表、字段、行这种可使用二维表格表示的结构化数据而设计的,而大数据通常是针对文本这种非结构化数据而设计的。


数据量大是大数据的显著特点,归纳来说大数据特点如下:

  • 体量巨大。按目前的发展趋势看,大数据的体量已经达到PB级甚至EB级。

  • 大数据的数据类型多样,以非结构化数据为主,如网络日志、音频,视频。图片,地理位置信息、交易数据.社交数据等。

  • 价值密度低。有价值的数据仅占到数据总量相当小的一部分。比如一段监控视频中真正有价值的画面可能只有几秒钟。由于价值密度低,所以迅速地完成数据的价值提纯是目前大数据酒涌背景下亟待解决的难题。

  • 产生和要求处理速度快。这是大数据区分于传统数据挖掘最显著的特征。


另外,大数据也是一种方法论。原则是一切都被记录,一切都被数字化,从数字里寻找需求,寻找知识。发掘价值”这是一种新的思维方式,不同于此前的专家方式,而是通过数据分析来得到结论,这是大数据时代的一个显著特征。这也就要求技术人员拥有能够从各种类型的数据中快速获
得有价值信息的能力。前有很多大数据处理系统可以处理大数据,如表1-1所示。

名称类型说明
Hadoop开源Apache 基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。
Spark开源类型Hadoop MapReduce的并行框架
Storm开源实时的,分布式以及具备高容错的计算系统
MongDB开源面向文档的NoSql数据库
IBM PureData商用基于Hadoop,属于IBM专家集成系统PureSystem家族中的组成部分,主要面向大数据应用
Oracle Exadata商用Oracle的新一代数据库云服务器

Hadoop,Hadoop是开源软件,实现了一个分布式文件系统(Hadoop Distributed File System,
HDFS),分布式系统是运行在多个主机上的软件系统。HDFS有着高容错性的特点,能够自动保存数据的多个副本,并能自动将失败的任务重新分配。Hadoop设计用来部署在低廉的通用硬件平台上组成集群,提供热插拔的方式加入新的节点来向集群中扩展,将计算任务动态分配到集群中各个节点并保证各节点的动态平衡。总的来说,Hadoop具有低成本,高扩展,高效性,高容错性的特点。因此Hadoop得到多家厂商支持或采用,包括阿里巴巴,腾讯,百度,Microsoft,Intel,IBM,雅虎等。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值