概念
1.数据:
数据(英语:data),是指未经过处理的原始记录。
2.大数据:
大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。
(也就是利用常用软件工具获取,管理和处理数据所消耗的时间超过可容忍的时间的数据集)
5个特征:
Volume:数据量大,包括采集、存储和计算的量都非常大。
Variety:种类和来源多样化。
Value:数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵。
Velocity:数据增长速度快,处理速度也快,时效性要求高。
Veracity:数据的准确性和可信赖度,即数据的质量。
参考:https://blog.csdn.net/arsaycode/article/details/70847184
3.数据挖掘
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、规律性的、人们事先未知的、但又是潜在有用的并且最终可理解的信息和知识的非平凡过程。
(也就是从数据库的大量数据中挖掘出有用的信息)
事先未知的:即信息的新颖性
潜在有用的:发现的信息将来有实际效用(常识性的无意义)
最终可理解的:发现的模式能被用户理解
非平凡:通常指数据挖掘过程不是线性的
参考:https://blog.csdn.net/fenghuo9527/article/details/80308333
4.大数据挖掘:
从大数据集中寻找其规律的技术。