大数据简介

大数据的结构

对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。 [1] 

麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。 [4] 

大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。 [5] 

从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理分布式数据库云存储虚拟化技术。 [2] 

随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。

大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统分布式数据库云计算平台、互联网和可扩展的存储系统

最小的基本单位是bit,按顺序给出所有单位:bitByte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。

它们按照进率1024(2的十次方)来计算:

1 Byte =8 bit

KB = 1,024 Bytes = 8192 bit

MB = 1,024 KB = 1,048,576 Bytes

GB = 1,024 MB = 1,048,576 KB

TB = 1,024 GB = 1,048,576 MB

PB = 1,024 TB = 1,048,576 GB

EB = 1,024 PB = 1,048,576 TB

ZB = 1,024 EB = 1,048,576 PB

YB = 1,024 ZB = 1,048,576 EB

BB = 1,024 YB = 1,048,576 ZB

NB = 1,024 BB = 1,048,576 YB

DB = 1,024 NB = 1,048,576 BB

全称:

Bit比特) =Binary Digit

8Bits = 1 Byte(字节

1,000 Bytes = 1 Kilobyte

1,000Kilobytes = 1 Megabyte

1,000 Megabytes = 1 Gigabyte

1,000 Gigabytes = 1Terabyte

1,000 Terabytes = 1 Petabyte

1,000 Petabytes = 1 Exabyte

1,000Exabytes = 1 Zettabyte

1,000 Zettabytes = 1 Yottabyte

1,000 Yottabytes = 1Brontobyte

1,000 Brontobytes = 1 Geopbyte

特征

容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息; [6] 

种类(Variety):数据类型的多样性; [6] 

速度(Velocity):指获得数据的速度; [6] 

可变性(Variability):妨碍了处理和有效地管理数据的过程。 [6] 

真实性(Veracity):数据的质量 [6] 

复杂性(Complexity):数据量巨大,来源多渠道 [6] 

价值(value):合理运用大数据,以低成本创造高价值

结构

大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。据IDC的调查报告显示:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。 [7]  大数据就是互联网发展到现今阶段的一种表象特征而已,没有必要神话它或对它

保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本看起来很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。 [8] 

其次,想要系统的认知大数据,必须要全面而细致的分解它,着手从三个层面来展开:

第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。在这里从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。

第二层面是技术,技术是大数据价值体现的手段和前进的基石。在这里分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。

第三层面是实践,实践是大数据的最终价值体现。在这里分别从互联网的大数据,政府的大数据,企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。 [8] ​​​​​​​​​​​​​​

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值