大数据的定义与特点

什么是大数据:

定义1 (Kusnetzky, Dan. What is "Big Data")
    所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成人类所能解读的信息。

定义2 (维克托·迈尔舍恩伯格、肯尼斯·库克耶. "大数据时代")
    不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法。

定义3 ("大数据"(Big Data)研究机构Gartner)
    "大数据"是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率的信息资产。



大数据特点:
  • 多样性,复杂性(Variety):
    • 大数据种类繁多,在编码方式、数据格式和应用特征等各个方面都存在差异,因此也常常说大数据有一个重要特点,叫做多源异构(来自多个信息源,构造方式多种多样)
  • 速度(Velocity):
    • 速度快,数据持续到达,只在特定的时间和空间内数据才有意义
    • 须考虑能不能在扫描数据一次以内,甚至在log n复杂性以内解决问题
  • 数据量(Volume):
    • “大”
    • 由于数据量大必须考虑并行处理、必须考虑能不能想办法缩减其数据量、必须考虑能不能设计有效的存储结构存储这些数据
  • 基于高度分析的新价值(Value):

大数据的应用:
  • 预测
  • 推荐
  • 商业情报分析
  • 科学研究
  • 4
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
⼤数据的四⼤特点   说起⼤数据,估计⼤家都觉得只听过概念,但是具体是什么东西,怎么定义,没有⼀个标准的东西,因为在我们的印象中好像很多公司 都叫⼤数据公司,业务形态则有⼏百种,感觉不是很好理解,所以我建议还是从字⾯上来理解⼤数据,在维克托迈尔-舍恩伯格及肯尼斯库 克耶编写的《⼤数据时代》提到了⼤数据的4个特征:   1.⼤量   ⼤数据的特征⾸先就体现为"⼤",从先Map3时代,⼀个⼩⼩的MB级别的Map3就可以满⾜很多⼈的需求,然⽽随着时间的推移,存 储单位从过去的GB到TB,乃⾄现在的PB、EB级别。只有数据体量达到了PB级别以上,才能被称为⼤数据。1PB等于1024TB,1TB等于 1024G,那么1PB等于1024*1024个G的数据。随着信息技术的⾼速发展,数据开始爆发性增长。社交⽹络(微博、推特、脸书)、移动⽹ 络、各种智能⼯具,服务⼯具等,都成为数据的来源。淘宝⽹近4亿的会员每天产⽣的商品交易数据约20TB;脸书约10亿的⽤户每天产⽣的 ⽇志数据超过300TB。迫切需要智能的算法、强⼤的数据处理平台和新的数据处理技术,来统计、分析、预测和实时处理如此⼤规模的数 据。   2.⾼速   就是通过算法对数据的逻辑处理速度⾮常快,1秒定律,可从各种类型的数据中快速获得⾼价值的信息,这⼀点也是和传统的数据挖掘 技术有着本质的不同。⼤数据的产⽣⾮常迅速,主要通过互联⽹传输。⽣活中每个⼈都离不开互联⽹,也就是说每天个⼈每天都在向⼤数据 提供⼤量的资料。并且这些数据是需要及时处理的,因为花费⼤量资本去存储作⽤较⼩的历史数据是⾮常不划算的,对于⼀个平台⽽⾔,也 许保存的数据只有过去⼏天或者⼀个⽉之内,再远的数据就要及时清理,不然代价太⼤。基于这种情况,⼤数据对处理速度有⾮常严格的要 求,服务器中⼤量的资源都⽤于处理和计算数据,很多平台都需要做到实时分析。数据⽆时⽆刻不在产⽣,谁的速度更快,谁就有优势。   3.多样   如果只有单⼀的数据,那么这些数据就没有了价值,⽐如只有单⼀的个⼈数据,或者单⼀的⽤户提交数据,这些数据还不能称为⼤数 据。⼴泛的数据来源,决定了⼤数据形式的多样性。⽐如当前的上⽹⽤户中,年龄,学历,爱好,性格等等每个⼈的特征都不⼀样,这个也 就是⼤数据的多样性,当然了如果扩展到全国,那么数据的多样性会更强,每个地区,每个时间段,都会存在各种各样的数据多样性。任何 形式的数据都可以产⽣作⽤,⽬前应⽤最⼴泛的就是推荐系统,如淘宝,⽹易云⾳乐、今⽇头条等,这些平台都会通过对⽤户的⽇志数据进 ⾏分析,从⽽进⼀步推荐⽤户喜欢的东西。⽇志数据是结构化明显的数据,还有⼀些数据结构化不明显,例如图⽚、⾳频、视频等,这些数 据因果关系弱,就需要⼈⼯对其进⾏标注。   4.价值   这也是⼤数据的核⼼特征。据羿戓产品设计所了解,现实世界所产⽣的数据中,有价值的数据所占⽐例很⼩。相⽐于传统的⼩数据,⼤ 数据最⼤的价值在于通过从⼤量不相关的各种类型的数据中,挖掘出对未来趋势与模式预测分析有价值的数据,并通过机器学习⽅法、⼈⼯ 智能⽅法或数据挖掘⽅法深度分析,发现新规律和新知识。你如果有1PB以上的全国所有20-35年轻⼈的上⽹数据的时候,那么它⾃然就有 了商业价值,⽐如通过分析这些数据,我们就知道这些⼈的爱好,进⽽指导产品的发展⽅向等等。如果有了全国⼏百万病⼈的数据,根据这 些数据进⾏分析就能预测疾病的发⽣,这些都是⼤数据的价值。⼤数据运⽤之⼴泛,如运⽤于农业、⾦融、医疗等各个领域,从⽽最终达到 改善社会治理、提⾼⽣产效率、推进科学研究的效果。 对⼤数据以及⼈⼯智能概念都是模糊不清的,该按照什么线路去学习,学完往哪⽅⾯发展,想深⼊了解,想学习的同学欢迎加⼊⼤数据学 习qq群:458345782,有⼤量⼲货(零基础以及进阶的经典实战)分享给⼤家,并且有清华⼤学毕业的资深⼤数据讲师给⼤家免费授 课,给⼤家分享⽬前国内最完整的⼤数据⾼端实战实⽤学习流程体系 。从java和linux⼊⼿,其后逐步的深⼊到HADOOP-hive-oozie-web- flume-python-hbase-kafka-scala-SPARK等相关知识⼀⼀分享!   ⼤数据已经成为过去⼏年中⼤部分⾏业的游戏规则,⾏业领袖,学者和其他知名的利益相关者都同意这⼀点,随着⼤数据继续渗透到我 们的⽇常⽣活中,围绕⼤数据的炒作正在转向实际使⽤中的真正价值。
大数据与Hadoop 作者:朱立 来源:《中国科技纵横》2016年第02期 【摘 要】大数据技术正在向各行各业渗透。Hadoop作为数据分布式处理系统的典型代表,已 经成为该领域事实的标准。但Hadoop并不等于大数据,它只是一个成功的处理离线数据 的分布式系统,大数据领域还存在众多其他类型的处理系统。所以,Hadoop代替不了大 数据的全部,但Hadoop是大数据时代的优秀代表。 【关键词】大数据 Hadoop 分布式处理系统 随着信息化技术的日渐普及、宽带网络的快速兴起,以及云计算、移动互联和 物联网等新一代信息技术的广泛应用,全球数据的增长速度进一步加快。与此同时,一 批数据收集、存储、处理技术和应用快速发展并逐渐汇聚。软件运用的技术越来越尖端 ,结合不断提高的计算能力,从数据中提取有价值信息的能力显著提高。大体量的数据 不再是无序而又没有价值的,大数据诞生了。 1认识大数据 所谓大数据,就是从各种类型的数据中,快速获得有价值信息的能力。大数据 是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和 多样化的信息资产。它是对那些超出正常处理范围和大小、迫使用户采用非传统处理方 法的数据集所下的定义。 区别于过去的海量数据,大数据特点可以概况为4个V:Volume、Variety、V alue和Velocity,即大量、多样、价值密度低、快速。 第一,数据体量大。大数据一般指在10TB(1TB=1024GB)规模以上的数据量, 目前正在跃升到PB(1PB=1024TB)级别。不仅存储量大,计算量也大。 第二,数据类型多。除了数值数据,还有文字、声音、视频等,包括网络日志 、视频、图片、地理位置信息等多种类型的格式。由于数据来自多种数据源,数据种类 和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化 数据。 第三,价值密度低。以视频为例,不间断监控视频中,有价值的数据可能仅有 一两秒。找到有价值的信息有如沙里淘金,其价值却又弥足珍贵。 第四,处理速度快。在数据量非常庞大的情况下,也能做到数据的实时处理。 这一点和传统的数据挖掘技术有着本质的不同。 大数据技术是指从各种类型的大体量数据中快速获得有价值信息的技术。这是 大数据的核心问题。目前所说的大数据不仅指数据本身的规模,也包括采集数据的工具 、平台和数据分析系统。大数据研发的目的是发展大数据技术并将其应用到相关领域, 通过解决大体量数据处理问题促进其突破性发展。因此,大数据时代带来的挑战不仅体 现在如何处理大体量数据并从中获取有价值的信息,也体现在如何加强大数据技术研发 。大数据所涉及的关键技术大致包括6个方面:数据采集与数据管理、分布式存储和并行 计算、大数据应用开发、数据分析与挖掘、大数据前端应用、数据服务和展现。 2大数据与Hadoop 伴随大数据技术的普及,Hadoop因其开源的特点和卓越的性能成为一时的新宠 ,甚至有人认为大数据就是Hadoop,其实这是一个误区。Hadoop只是处理离线数据的分 布式存储和处理系统。除了Hadoop,还有用于处理流数据的Storm、处理关系型数据的O racle、处理实时机器数据的Splunk……目前主流的大数据系统很多,Hadoop只是其中的代 表。 2.1 Hadoop的核心模块 Hadoop Common:Hadoop的公用应用模块,是整个Hadoop项目的核心,为Hadoop各子项目提供各 种工具,如配置文件和日志操作等,其他Hadoop子项目都是在此基础上发展起来的。 Hadoop Distributed File System(HDFS):Hadoop分布式文件系统,提供高吞吐量应用程序数据访问,并具有高 容错性。对外部客户机而言,HDFS就像一个传统的分级文件系统,可以进行增删改查或 重命名等常规文件操作。但实际上HDFS中的文件被分成块,然后复制到多个计算机中, 这与传统的RAID架构大不相同。HDFS特别适合需要一次写入、多次读取的超大规模数据 集的应用程序。 Hadoop YARN:一个作业调度和群集资源管理框架。 Hadoop MapReduce:基于YARN的大型数据分布式并行编程模式和程序执行框架,是Google的Map Reduce的开源实现。它帮助用户编写处理大型数据集的并行运行程序。MapReduce隐藏了 分布式并行编程的底层细节,开发人员只需编写业务逻辑代码,而无需考虑程序并行执 行的细节,从而大大提高了开发效率。 Apache的其他与Hadoop相关的项目还有很多。 2.2 Hadoop的特点 作为分布式计算领域的典型代表,Hadoop比其他分布式框架有更多的优点。 可扩展性:Hadoop可以在不停止集群服务的情况下,在可用的计算机集簇间分 配

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值