大数据的5V特征分别是什么?

大数据现在并不是一个陌生的名词了,这个词语已经“出圈”了,不仅仅是相关的从业人员对它很了解,即便是完全不懂IT技术的人,也都能够说出点大数据的东西来。我们在谈论大数据的时候,避不开的其实是大数据的特征,有些地方会提到大数据有4V的特征,而有些地方会提到有5V的特征。那么这里所谓的4V、5V都是什么呢?
其实这里所谓的4V、5V,是几个单词的缩写: Volume、Variety、Value、Velocity、Veracity,因为这几个单词的首字母都是V,因此被我们称为4V、5V的特征。在这里,我们就来聊一聊这5个V都表示什么含义:

Volume
中文翻译是“大量”的意思,顾名思义,就是数据量非常的庞大。而这也是大数据的字面含义。我们知道在表示数据大小的时候,生活中常见的计量单位有KB、MB、GB、TB等,但是在此之上还有其他的单位,例如: PB、EB、ZB、YB、BB、NB、DB等。这些单位之间的换算率都是1024,也正是因此,人们会把每年的10月24日定为程序员节。我们每一个人在互联网上进行各种各样的行为,都会留下数据,而这些数据量虽然不算大,但是在庞大的用户基数下,累计起来的还是非常庞大的。在一个中大型企业中,需要处理的数据规模是很容易达到PB、EB的级别的,而这也正是大数据的第一个特征: 大量。

Variety
中文翻译是“多样化”的意思。我们知道学习大数据就是来处理庞大的数据集的,那么组成这个庞大的数据集的数据是可以分为不同的类型的。我们把这些数据大致分为三类:结构化的数据、半结构化的数据和非结构化的数据。
结构化的数据,一般指的是关系型数据库中的数据,例如MySQL、Oracle中的表中的数据。这些数据中,每一行的数据都保持着相同的数据格式,有规律可循,非常容易处理。
半结构化的数据,指的是有一定的结构性,但是比起关系型数据库表中的结构化的数据来说,结构不是那么清晰,处理起来也比结构化的数据略微麻烦。常见的半结构化的数据有json、xml、html等。
非结构化的数据,指的就是没有丝毫结构性可言的数据了。数据没有固定的格式,通常需要我们单独设计程序来处理这些数据,从中提取出来有价值的信息。
而我们在工作中要处理的数据,往往都是以半结构化和非结构化的居多。

Value
中文翻译是“价值”的意思。这里其实有两点体现:价值密度低、商业价值高。
大数据相关的技术体系,需要处理的数据量是非常庞大的,动辄PB、EB规模的数据,但是真正具有价值的数据却非常稀少,只有100M,甚至更少。我们就需要从这么庞大的数据集中提取出来这些密度非常低的有价值的数据进行处理。
但是,也就是这些密度非常低的数据,能够发挥出来巨大的商业价值。这点其实也是来推动大数据发展的重要的特征之一,因为这些大数据相关的技术体系可以给商人带来巨大的利益,老板才愿意培养人来从事这个行业;越来越多的人涌入到这个行业,才能够推动这门技术不断的向前发展。


中文翻译是“速度”的意思。我们要处理的数据集在很多情况下,并不是一潭死水,而是在不断增长的。对于一个企业来说,每天都会新增庞大的数据,这些数据可能来自于用户的操作、可能来自于智能家居、可能来自于各种传感器等,数据的来源非常多,而且数据量的增速也是非常可怕的。以淘宝、京东这类的电商来说,每日新增的数据量达到几百个GB是很正常的事情。在这样快速的数据增长的情况下,也对我们处理数据的速度有了较高的要求了。我们一定要优化我们的业务逻辑,提高处理的速度,才不会造成数据积压。

Veracity
中文翻译是“真实性”的意思。大规模的数据量,在处理的时候,对技术体系是有较高的要求的。在还没有形成现有的技术体系的年代,人们在处理庞大的数据集的时候,往往束手无策,要么实效性非常差,要么干脆无法处理。那个时代甚至流行一种做法:随机抽样。随机的从庞大的数据集中抽取一部分出来进行处理,以这样的处理结果,作为整个数据集的处理结果。追求真实性的,可能会多随机几次。但是这个结果其实是不准确的,并不能够体现出这些数据完整的价值,甚至还可能得到错误的结论。但是现在大数据的技术体系相对成熟,我们不再使用这样的随机抽样的方式了。我们就是要对所有的数据进行高效的处理,得出的结论自然也是正确的。

以上就是大数据的特征,有人在聊特征的时候会提到4V的说法,指的就是Volume、Variety、Value、Velocity。如果说到5V特征的话,那就把Veracity加上就可以咯。


帮助到你的话就点个关注吧~

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
大数据的4V特征 近几年很多领域都在讨论如何发展和运用大数据,那么什么是大数据大数据特征 是什么?好多人不怎么了解,下文对这些方面进行简单的阐述。 (一)大数据(Big?Data) 大数据是指那些超过传统数据库系统处理能力的数据。它的数据规模和转输速度要求 很高,或者其结构不适合原本的数据库系统。为了获取大数据中的价值,我们必须选择 另一种方式来处理它。数据中隐藏着有价值的模式和信息,在以往需要相当的时间和成 本才能提取这些信息。如沃尔玛或谷歌这类领先企业都要付高昂的代价才能从大数据中 挖掘信息。而当今的各种资源,如硬件、云架构和开源软件使得大数据的处理更为方便 和廉价。即使是在车库中创业的公司也可以用较低的价格租用云服务时间了。对于企业 组织来讲,大数据的价值体现在两个方面:分析使用和二次开发。对大数据进行分析能 揭示隐藏其中的信息。例如零售业中对门店销售、地理和社会信息的分析能提升对客户 的理解。对大数据的二次开发则是那些成功的网络公司的长项。例如Facebook通过结合 大量用户信息,定制出高度个性化的用户体验,并创造出一种新的广告模式。这种通过 大数据创造出新产品和服务的商业行为并非巧合,谷歌、雅虎、亚马逊和Facebook它们 都是大数据时代的创新者。? (二)大数据的4V特征 大量化(Volume):企业面临着数据量的大规模增长。例如,IDC最近的报告预测称, 到2020年,全球数据量将扩大50倍。目前,大数据的规模尚是一个不断变化的指标,单 一数据集的规模范围从几十TB到数PB不等。简而言之,存储1PB数据将需要两万台配备5 0GB硬盘的个人电脑。此外,各种意想不到的来源都能产生数据。 多样化(Variety):一个普遍观点认为,人们使用互联网搜索是形成数据多样性的主 要原因,这一看法部分正确。然而,数据多样性的增加主要是由于新型多结构数据,以 及包括网络日志、社交媒体、互联网搜索、手机通话记录及传感器网络等数据类型造成 。其中,部分传感器安装在火车、汽车和飞机上,每个传感器都增加了数据的多样性。 快速化(Velocity):高速描述的是数据被创建和移动的速度。在高速网络时代,通过 基于实现软件性能优化的高速电脑处理器和服务器,创建实时数据流已成为流行趋势。 企业不仅需要了解如何快速创建数据,还必须知道如何快速处理、分析并返回给用户, 以满足他们的实时需求。根据IMS?Research关于数据创建速度的调查,据预测,到2020 年全球将拥有220亿部互联网连接设备。 价值化(Value):大量的不相关信息,浪里淘沙却又弥足珍贵。对未来趋势与模式 的可预测分析,深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等) 蚁坊软件在舆情大数据处理中注重大量化、多样化、快速化、价值化,凭借自身的大 数据平台为客户提供舆情应用服务,其中鹰击提供微博舆情监测分析服务,正是基于这 四个维度,其舆情"早发现"的能力显着领先竞争对手,为舆情早报告、早响应提供先机 ;而蚁坊软件旗下的另外一款典型产品,则是从多样性(全网)、快速性方面独有优势 ——鹰眼提供全网舆情监测分析服务,方便客户"速读网",掌控舆情发展态势。 ----------------------- 大数据的V特征全文共1页,当前为第1页。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值