什么是大数据?核心概念与发展历程
1. 大数据的定义
大数据(Big Data)是指体量庞大、增长迅速、种类繁多的数据集合,它超出了传统数据库系统的存储、管理和处理能力。大数据不仅仅是数据量的增加,更重要的是如何高效地存储、处理和分析这些数据,以挖掘其中的价值。
目前业界对大数据的定义主要来源于 Gartner 提出的 “5V” 特性:
- Volume(数据量大):数据规模达到 PB 级甚至 EB 级,传统数据库难以存储和管理。
- Velocity(处理速度快):数据生成速度快,需要实时或准实时处理。
- Variety(数据类型多):包括结构化数据(如关系型数据库)、半结构化数据(如 JSON、XML)、非结构化数据(如文本、图像、视频)。
- Veracity(数据准确性):数据质量参差不齐,需要进行清洗和治理。
- Value(数据价值):数据本身并不产生价值,价值的挖掘依赖于有效的分析和应用。
2. 大数据的发展历程
大数据的发展经历了多个阶段,从最初的单机存储计算,到分布式计算框架的普及,再到如今的数据湖和数据仓库融合。