开源大数据技术基础
引言
我认为分享知识是一件幸福的事情。
大数据概念
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程
大数据发展史
时间 | 阶段 |
---|---|
1887-2008 | 大数据出现 |
2009-2012 | 大数据热门 |
– | – |
2013 | 大数据元年 |
2017-2022 | 大数据爆发 |
大数据特征
- Volume
- Variety
- Value
- Velocity
大数据结构
项目 | 描述 |
---|---|
结构化数据 | 关系模型数据 |
半结构化数据 | 非关系模型的、有基本固定结构模式的数据,例如日志文件、XML文档、JSON文档、Email等 |
非结构化数据 | 没有固定模式的数据,如WORD、PDF、PPT、EXL,各种格式的图片、视频等 |
大数据处理流程
- 数据挖掘
- 数据清洗
- 数据分析
- 数据可视化