从Hadoop到Spark、Flink,大数据处理框架十年激荡发展史

本文介绍了大数据的基本概念、特点,以及如何利用分而治之的思想进行分布式计算。从Hadoop的MapReduce到Spark、Flink的发展,展示了大数据处理框架的演进,强调了批处理和流处理的重要性。Hadoop、Spark和Flink作为大数据领域的关键框架,各自在易用性、速度和实时性方面进行了优化,为企业提供了多样化的数据处理解决方案。
摘要由CSDN通过智能技术生成

当前这个数据时代,各领域各业务场景时时刻刻都有大量的数据产生,如何理解大数据,对这些数据进行有效的处理成为很多企业和研究机构所面临的问题。本文将从大数据的基础特性开始,进而解释分而治之的处理思想,最后介绍一些流行的大数据技术和组件,读者能够通过本文了解大数据的概念、处理方法和流行技术。

什么是大数据?

大数据,顾名思义,就是拥有庞大体量的数据。关于什么是大数据,如何定义大数据,如何使用大数据等一系列问题,不同领域背景的朋友理解各不相同。IBM将大数据归纳为5个V[^1],涵盖了大数据绝大多数的特性。

大数据的5个V 来源:IBM

Volume:数据量大,从TB(1,024 GB)、PB(1,024 TB)、EB(1,024 PB)、ZB(1,024 EB)甚至到YB(1,024 ZB)。纽约证交所每天产生的交易数据大约在TB级,瑞士日内瓦附近的大型强子对撞机每年产生的数据约为PB级,而目前全球数据总量已经在ZB级,相当于 1,000,000 PB,也就是大家更熟悉的10亿 TB。基于更大规模的数据,我们可以对某个研究对象的历史、现状和未来有更加全面的了解。

Velocity:数据产生速度快,所要求的处理速度和时效性高,因为时间就是金钱。金融市场的交易数据必须以秒级的速度进行处理,搜索和推荐引擎需要在分钟级将实时新闻推送给用户。更快的数据处理速度,让我们基于最新的数据上做更加实时的决策。

Variety:数据类型繁多,包括数字、文字、图片、视频等不同的数据形式,也包括来自社交网络、视频网站、可穿戴设备以及各类传感器的数据。数据可能是Excel里高度结构化的数据,也可能是图片和视频这种非结构化的数据。

Veracity:数据真实性。一方面,数据并非天然具有高价值,一些异常值会被掺杂进来,例如,统计偏差、人的情感影响、天气、经济因素甚至谎报数据等。另一方面,数据源类型不同,数据源多样,如何将这些多元异构数据连接、匹配、清洗和转化,形成具有高置信度的数据是一项非常有挑战的工作。

Value:数据价值。我们研究和利用大数据的最终目的是提供更有价值的决策支持,基于以上提到的四个V,挖掘大数据的深层价值。

在数据分析领域,研究对象的全部被称为总体(Population),总体包含大量的数据,甚至说数据可能是无限的。比如调查15个国家的国民的诚信情况,所有国民是总体。很多情况下,我们无法保证能收集和分析总体的所有数据,因此研究者一般基于研究对象的一个子集进行数据分析。样本(Sample)是从总体中抽取的个体,是研究对象的子集,通过对样本的调查和分析,研究者可以推测总体的情况。在诚信调查的案例中,我们可以在每个国家抽取一部分国民作为样本,以此推测该国国民的诚信水平。

在大数据技术成熟之前,受限于数据收集、存储和分析能力,样本数量相对较小,大数据技术的出现让数据存储和分析能力不再是瓶颈,研究者可以在更大规模的数据上,以更快地速度进行数据分析。但数据并非天然有价值,如何让数据点石成金非常有挑战。在诚信调查中,如果我们直接询问样本对象:“你是否谎报了自己和家庭的资产以获取更大的金融借贷额度?”十之八九,我们得不到真实的答案,但我们可以综合多种渠道来分析该问题,比如结合样本对象的工作经历、征信记录等数据。

可见,大数据具有更大的数据量、更快的速度、更多的数据类型的特点。在一定的数据真实性基础上,大数据技术最终为数据背后的价值服务。

随着大数据技术的发展,数据的复杂性越来越高,有人在这5个V的基础上,又提出了一些补充,比如增加了动态性(Vitality),强调整个数据体系的动态性;增加了可视性(Visualization),强调数据的显性化展现;增加了合法性(Validity),强调数据采集和应用的合法性,特别是对于个人隐私数据的合理使用等;增

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值