大数据,Hadoop

大数据

大数据代表着数据从量到质的变化过程,代表着数据作为一种资源在经济与社会实践中扮演越来越重要的角色,相关的技术、产业、应用、政策等环境会与之互相影响、互为促进。从技术角度来看,这种数据规模质变后带来新的问题,即数据从静态变为动态,从简单的多维度变成巨量维度,而且其种类日益丰富,超出当前分析方法与技术能够处理的范畴。这些数据的采集、分析、处理、存储和展现都涉及复杂的多模态高维计算过程,涉及异构媒体的统一语义描述、数据模型、大容量存储的建设,涉及多维度数据的特征关联与模拟展现。然而,大数据发展的最终目标还是挖掘其应用价值,没有价值或者没有发现其价值的大数据从某种意义上讲是一种冗余和负担。

大数据的特征(特点)
(1)规模性(Volume)
         随着信息化技术的高速发展,数据开始爆发性增长。大数据中的数据不再以几个GB或几个TB为单位来衡量,而是以 PB(1千个T)、EB(1百万个T)或ZB(10亿个T)为计量单位。

(2)多样性(Variety)
          多样性主要体现在数据来源多、数据类型多和数据之间关联性强这三个方面。

        ①数据来源多,企业所面对的传统数据主要是交易数据,而互联网和物联网的发展,带来了诸如社交网站、传感器等多种来源的数据。

而由于数据来源于不同的应用系统和不同的设备,决定了大数据形式的多样性。大体可以分为三类:一是结构化数据,如财务系统数据、信息管理系统数据、医疗系统数据等,其特点是数据间因果关系强;二是非结构化的数据,如视频、图片、音频等,其特点是数据间没有因果关系;三是半结构化数据,如HTML文档、邮件、网页等,其特点是数据间的因果关系弱。

        ②数据类型多,并且以非结构化数据为主。传统的企业中,数据都是以表格的形式保存。而大数据中有70%-85%的数据是如图片、音频、视频、网络日志、链接信息等非结构化和半结构化的数据。

        ③数据之间关联性强,频繁交互,如游客在旅游途中上传的照片和日志,就与游客的位置、行程等信息有很强的关联性。

(3)高速性(Velocity)
这是大数据区分于传统数据挖掘最显著的特征。大数据与海量数据的重要区别在两方面:一方面,大数据的数据规模更大;另一方面,大数据对处理数据的响应速度有更严格的要求。实时分析而非批量分析,数据输入、处理与丢弃立刻见效,几乎无延迟。数据的增长速度和处理速度是大数据高速性的重要体现。

(4)价值性(Value)
尽管企业拥有大量数据,但是发挥价值的仅是其中非常小的部分。大数据背后潜藏的价值巨大。由于大数据中有价值的数据所占比例很小,而大数据真正的价值体现在从大量不相关的各种类型的数据中。挖掘出对未来趋势与模式预测分析有价值的数据,并通过机器学习方法、人工智能方法或数据挖掘方法深度分析,并运用于农业、金融、医疗等各个领域,以期创造更大的价值。

Hadoop

Hadoop是一个由Apache基金会开发的分布式系统基础架构,旨在让用户能够高效地利用集群资源进行海量数据的存储和计算。

Hadoop提供了分布式文件系统(HDFS),这个系统具有高容错性,特别适合部署在低成本硬件上,并能提供高吞吐量的数据访问,非常适合处理超大数据集。Hadoop的核心设计包括HDFS和MapReduce,其中HDFS负责海量数据的存储,而MapReduce则提供计算能力。

此外,Hadoop是用JAVA语言编写的,自2008年成为Apache的顶级项目以来,发展迅速,已经成为当前使用最广泛的大数据处理框架之一。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值