DAMA数据管理知识体系
前言
该章节主要是针对DAMA数据管理知识体系的学习笔记中大数据和数据科学,思维导图如下(考题4分)
文章目录
大数据和数据科学
1. 大数据
- 数据量大(Volume)
- 数据更新快(Velocity)
- 数据更新快(Velocity)
- 数据黏度大(Viscosity)
- 数据波动性大(Volatility)
- 数据准确性低(Veracity)
2. 业务驱动因素
- 从多种流程生成的数据集中发现的商机
3. 数据湖
数据湖的风险在于,它可能很快会变成数据沼泽——杂乱、不干净、不一致。
4. 数据科学
- 丰富的数据源
- 信息组织和分析
- 信息交付
- 展示发现和数据洞察
5. 数据科学的过程
- 定义大数据战略和业务需求
- 选择数据源
- 采集和提取数据资料
- 设定数据假设和方法
- 集成和调整数据进行分析
- 使用模型探索数据
- 部署和监控
6. 基于服务的架构(Lambda架构)
- SBA架构
- 批处理层(Batch Layer)
- 加速层(Speed Layer)
- 服务层(Serving Layer)
7. 机器学习
-
算法分类
-
监督学习(Supervised learning)
基于通用规则(如将SPAM邮件与非SPAM邮件分开)
-
无监督学习(Unsupervised learning)
基于找到的那些隐藏的规律(数据挖掘)
-
强化学习(Reinforcement learning)
基于目标的实现(如在国际象棋中击败对手)
-
8. 数据和文本挖掘
- 剖析(Profiling)
- 数据缩减(Data reduction)
- 关联(Association)
- 聚类(Clustering)
- 自组织映射(Self-organizing maps)
注:属于无监督学习
9. 规范分析
- 规范分析(Prescriptive Analytics)比预测分析更进一步,它对将会影响结果的动作进行定义,而不仅仅是根据已发生的动作预测结果
10. 数据可视化
- 通过使用图片或图形表示来解释概念、想法和事实的过程
11. 工具
- MPP无共享技术和架构
- 基于分布式文件的数据库
- 数据库内算法
- 大数据云解决方案
- 统计计算和图形语言
- 数据可视化工具集
12. 度量指标
- 技术使用指标
- 加载和扫描目标
- 学习和故事场景