一、大数据原理-大数据定义
总结问题:
1.大数据的定义
2.大数据和小数据的区别
3.大数据的应用场景和目的
大数据的定义
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据可以用4个V来定义:
容量(Volume):数据题体量大
种类(Variety):数据类型的多样性,包括传统数据库、图像、文件和其他复杂的记录
速度(Velocity):指获得数据的速度
价值(Value):指价值密度低
大数据VS小数据
目标
小数据―常用来回答某个特定问题或服务于某个特定目标。
大数据―通常在思想上围绕一个目标而设计,但这个目标是可变的,摆出的问题也是千变万化的
地点
小数据―通常,小数据属于某个机构,常常存储在某台电脑中,有时也会存储在某个文件夹中。
大数据―通常通过电子空间传输,被分配到多个网络服务器上,存在于地球的任何地方。
数据结构和内容
小数据―通常包含高度结构化的数据,数据域被限制在某个单一的学科或分支学科之内。这些数据通常来自一个顺序电子表格,其记录格式是统一的。
大数据―必须有吸收非结构化数据的能力(如自由文本、图像、视频、音频、实体对象等)。数据源的内容也许跨多个学科,而其中每个独立的数据对象又有可能与其他大数据资源的数据相关联。
数据准备
小数据―在很多情况下,数据使用者从其个人的目的出发准备数据。
大数据―数据来自众多多样化的数据源,并由很多人来准备。数据的使用者很少是该数据的准备者。
寿命
小数据―当数据项目结束时,小数据保存的时间有限(很少超过研究数据的传统学术寿命,即大概7年),然后被擦除。
大数据―大数据项目使用的数据通常需要永久保存。理想情况下,当原始资源寿命结束时,存储在大数据资源中的数据将被吸收到另一个资源池中。很多大数据项目累积的数据会延伸到未来和过去(例如遗留数据)。
测量
小数据―通常小数据使用一个实验协议来进行测量,且该数据可由某个标准单元集描述。
大数据―众多不同类型的数据以多种不同的电子格式传输着。当数据可测量时,测量结果可通过多种协议获取。对数据管理者而言,确定大数据的质量是最困难的任务之一。
再现性
小数据―小数据项目通常情况下是重复的。如果有关于数据质量的问题,或对数据再现性、从数据中得到的结论的正确性有疑问,那么整个项目可被重现,并产生新的数据集。
大数据―通常复制大数据几乎是不可行的。在多数情况下,人们希望能够在大数据资源中发现坏数据并进行标记等