大数据知识点之大数据5V特征

大数据的特征可以浓缩为五个英文单词,Volume(大量)、Variety(多样性)、Velocity(速度)、Value(价值)、Veracity(准确性)。因为是5个特征都是以“V”开头的英文单词,又叫大数据5V特征。

概述:

1、Volume(大量)

  即可从数百TB到数十数百PB、甚至EB的规模

2、Variety(多样性)

  即大数据包括各种格式和形态的数据

3、Velocity(速度)

  数据增长速度快,处理速度也快,获取数据的速度也要快

4、Value(价值)

  数据价值密度低,但是商业价值高

5、Veracity(准确性)

  即处理的结果要保证一定的准确性

详细描述:

1、Volume
中文翻译是“大量”的意思,顾名思义,就是数据量非常的庞大。而这也是大数据的字面含义。我们知道在表示数据大小的时候,生活中常见的计量单位有KB、MB、GB、TB等,但是在此之上还有其他的单位,例如: PB、EB、ZB、YB、BB、NB、DB等。这些单位之间的换算率都是1024,也正是因此,人们会把每年的10月24日定为程序员节。我们每一个人在互联网上进行各种各样的行为,都会留下数据,而这些数据量虽然不算大,但是在庞大的用户基数下,累计起来的还是非常庞大的。在一个中大型企业中,需要处理的数据规模是很容易达到PB、EB的级别的,而这也正是大数据的第一个特征: 大量。

2、Variety
中文翻译是“多样化”的意思。我们知道学习大数据就是来处理庞大的数据集的,那么组成这个庞大的数据集的数据是可以分为不同的类型的。我们把这些数据大致分为三类:结构化的数据、半结构化的数据和非结构化的数据。
结构化的数据,一般指的是关系型数据库中的数据,例如MySQL、Oracle中的表中的数据。这些数据中,每一行的数据都保持着相同的数据格式,有规律可循,非常容易处理。
半结构化的数据,指的是有一定的结构性,但是比起关系型数据库表中的结构化的数据来说,结构不是那么清晰,处理起来也比结构化的数据略微麻烦。常见的半结构化的数据有json、xml、html等。
非结构化的数据,指的就是没有丝毫结构性可言的数据了。数据没有固定的格式,通常需要我们单独设计程序来处理这些数据,从中提取出来有价值的信息。
而我们在工作中要处理的数据,往往都是以半结构化和非结构化的居多。

3、Value
中文翻译是“价值”的意思。这里其实有两点体现:价值密度低、商业价值高。
大数据相关的技术体系,需要处理的数据量是非常庞大的,动辄PB、EB规模的数据,但是真正具有价值的数据却非常稀少,只有100M,甚至更少。我们就需要从这么庞大的数据集中提取出来这些密度非常低的有价值的数据进行处理。
但是,也就是这些密度非常低的数据,能够发挥出来巨大的商业价值。这点其实也是来推动大数据发展的重要的特征之一,因为这些大数据相关的技术体系可以给商人带来巨大的利益,老板才愿意培养人来从事这个行业;越来越多的人涌入到这个行业,才能够推动这门技术不断的向前发展。

4、Velocity
中文翻译是“速度”的意思。我们要处理的数据集在很多情况下,并不是一潭死水,而是在不断增长的。对于一个企业来说,每天都会新增庞大的数据,这些数据可能来自于用户的操作、可能来自于智能家居、可能来自于各种传感器等,数据的来源非常多,而且数据量的增速也是非常可怕的。以淘宝、京东这类的电商来说,每日新增的数据量达到几百个GB是很正常的事情。在这样快速的数据增长的情况下,也对我们处理数据的速度有了较高的要求了。我们一定要优化我们的业务逻辑,提高处理的速度,才不会造成数据积压。

5、Veracity
中文翻译是“真实性”的意思。大规模的数据量,在处理的时候,对技术体系是有较高的要求的。在还没有形成现有的技术体系的年代,人们在处理庞大的数据集的时候,往往束手无策,要么实效性非常差,要么干脆无法处理。那个时代甚至流行一种做法:随机抽样。随机的从庞大的数据集中抽取一部分出来进行处理,以这样的处理结果,作为整个数据集的处理结果。追求真实性的,可能会多随机几次。但是这个结果其实是不准确的,并不能够体现出这些数据完整的价值,甚至还可能得到错误的结论。但是现在大数据的技术体系相对成熟,我们不再使用这样的随机抽样的方式了。我们就是要对所有的数据进行高效的处理,得出的结论自然也是正确的。

大数据的5V特征是Volume、Velocity、Variety、Veracity和Value,这些特征描述了大数据的规模、速度、多样性、真实性和价值,对于理解和应用大数据具有重要意义。

⼤数据导论(1)——"⼤数据"相关概念、5V特征、数据类型 在过去的⼗⼏年中,各个领域都出现了⼤规模的数据增长,⽽各类仪器、通信⼯具以及集成电路⾏业的发展也为海量数据的产⽣与存储提供 了软件条件与硬件⽀持。 ⼤数据,这⼀术语正是产⽣在全球数据爆炸式增长的背景下,⽤来形容庞⼤的数据集合。 由于⼤数据为挖掘隐藏价值提供了新的可能,如今⼯业界、研究界甚⾄政府部门等各⾏各业都对⼤数据这⼀研究领域密切关注。 尽管⽬前⼤数据的重要性已被社会各界认同,但⼤数据的定义却众说纷纭,Apache Hadoop组织、麦肯锡、国际数据公司等其他研究者都 对⼤数据有不同的定义。但⽆论是哪种定义都具有⼀定的狭义性。 因此,我们可以从⼤数据的"5V"特征对⼤数据进⾏识别。同时,企业内部在思考如何构建数据集时,也可以从此特征⼊⼿。以下就是⼤ 数据的"5V"特征图。 1. 容量(Volume) 是指⼤规模的数据量,并且数据量呈持续增长趋势。⽬前⼀般指超过10T规模的数据量,但未来随着技术的进步,符合⼤数据标准的数据集 ⼤⼩也会变化。 ⼤规模的数据对象构成的集合,即称为"数据集"。 不同的数据集具有维度不同、稀疏性不同(有时⼀个数据记录的⼤部分特征属性都为0)、以及分辨率不同(分辨率过⾼,数据模式可能会 淹没在噪声中;分辨率过,模式⽆从显现)的特性。 因此数据集也具有不同的类型,常见的数据集类型包括:记录数据集(是记录的集合,即数据库中的数据集)、基于图形的数据集(数据对 象本⾝⽤图形表⽰,且包含数据对象之间的联系)和有序数据集(数据集属性涉及时间及空间上的联系,存储时间序列数据、空间数据 等)。 2. 速率(Velocity) 即数据⽣成、流动速率快。数据流动速率指指对数据采集、存储以及分析具有价值信息的速度。 因此也意味着数据的采集和分析等过程必须迅速及时。 3. 多样性(Variety) 指是⼤数据包括多种不同格式和不同类型的数据。数据来源包括⼈与系统交互时与机器⾃动⽣成,来源的多样性导致数据类型的多样性。根 据数据是否具有⼀定的模式、结构和关系,数据可分为三种基本类型:结构化数据、⾮结构化数据、半结构化数据。 结构化数据,指遵循⼀个标准的模式和结构(conform to a data model or schema),以⼆维表格的形式存储在关系型数据库⾥的⾏ 数据。结构化数据是先有结构、后产⽣数据。由于关系型数据库发展较为成熟,因此结构化数据的存储、分析⽅法也发展的较为全⾯, 有⼤量的⼯具⽀持结构化数据分析,分析⽅法⼤部门以统计分析和数据挖掘为主。其中,关系型数据库(Relational Database)是创 建在关系模型基础上的数据库,关系模型即⼆维表格模型,因此⼀个关系型数据库包括⼀些⼆维表且这些表之间的具有⼀定关联。关系 型数据库可运⽤SQL语⾔通过固有键值提取相应信息。 ⾮结构化数据,是指不遵循统⼀的数据结构或模型的数据(如⽂本、图像、视频、⾳频等),不⽅便⽤⼆维逻辑表来表现。这部分数据 在企业数据中占⽐达,且增长速率更快。⾮结构化数据更难被计算机理解,不能直接被处理或⽤SQL语句进⾏查询。⾮结构化数据常以 ⼆进制⼤型对象(BLOB,将⼆进制数据存储为⼀个单⼀个体的集合)形式,整体存储在关系型数据库中中;或存储在⾮关系型数据库 中(NoSQL数据库)。其处理分析过程也更为复杂。 半结构化数据,是指有⼀定的结构性,但本质上不具有关系性,介于完全结构化数据和完全⾮结构化数据之间的数据。它可以说是结构 化数据的⼀种,但是结构变化很⼤。因此,为了了解数据的细节,不能将数据简单按照⾮结构化数据或结构化数据进⾏处理,需要特殊 的存储(化解为结构化数据/⽤XML格式来组织并保存到CLOB字段中)和处理技术。半结构化数据包含相关标记,⽤来分隔语义元素 以及对记录和字段进⾏分层。因此,它也被称为⾃描述的结构(以树或者图的数据结构存储的数据)。先有数据,再有结构。两种常见 的半结构化数据:XML⽂件和JSON⽂件。常见来源包括电⼦转换数据(EDI)⽂件、扩展表、RSS源、传感器数据。 除此之外,还有⼀种⽤于描述其他数据的数据,即"元数据"。元数据可说明已知的数据的⼀些属性信息(数据长度、字段、数据列、 ⽂件⽬录等),提供了数据系谱信息(包含数据的演化过程。)、和数据处理的起源。元数据可分为三种不同类型,分别为记叙性元数 据、结构性元数据和管理性元数据,主要由机器⽣成并添加到数据集中。例如数码照⽚中提供⽂件⼤⼩和分辨率的属性⽂件。元数据的 作⽤也类似于数据仓库中的数据字典。 4. 实性(Veracity) 指数据的质量和保性。⼤数据环境下的数据最好具有较⾼的信噪⽐。 信噪⽐与数据源和数据类型⽆关。 5. 价值Value) 即价值密度。随着数据量的增长,数据
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值