DAMA数据管理知识体系-大数据和数据科学

DAMA数据管理知识体系

在这里插入图片描述

前言

该章节主要是针对DAMA数据管理知识体系的学习笔记中大数据和数据科学,思维导图如下(考题4分)
在这里插入图片描述


大数据和数据科学

1. 大数据

  • 数据量大(Volume)
  • 数据更新快(Velocity)
  • 数据更新快(Velocity)
  • 数据黏度大(Viscosity)
  • 数据波动性大(Volatility)
  • 数据准确性低(Veracity)

2. 业务驱动因素

  • 从多种流程生成的数据集中发现的商机

3. 数据湖

数据湖的风险在于,它可能很快会变成数据沼泽——杂乱、不干净、不一致。

4. 数据科学

  • 丰富的数据源
  • 信息组织和分析
  • 信息交付
  • 展示发现和数据洞察

5. 数据科学的过程

  • 定义大数据战略和业务需求
  • 选择数据源
  • 采集和提取数据资料
  • 设定数据假设和方法
  • 集成和调整数据进行分析
  • 使用模型探索数据
  • 部署和监控

6. 基于服务的架构(Lambda架构)

  • SBA架构
    • 批处理层(Batch Layer)
    • 加速层(Speed Layer)
    • 服务层(Serving Layer)

7. 机器学习

  • 算法分类

    • 监督学习(Supervised learning)

      基于通用规则(如将SPAM邮件与非SPAM邮件分开)

    • 无监督学习(Unsupervised learning)

      基于找到的那些隐藏的规律(数据挖掘)

    • 强化学习(Reinforcement learning)

      基于目标的实现(如在国际象棋中击败对手)

8. 数据和文本挖掘

  • 剖析(Profiling)
  • 数据缩减(Data reduction)
  • 关联(Association)
  • 聚类(Clustering)
  • 自组织映射(Self-organizing maps)

注:属于无监督学习

9. 规范分析

  • 规范分析(Prescriptive Analytics)比预测分析更进一步,它对将会影响结果的动作进行定义,而不仅仅是根据已发生的动作预测结果

10. 数据可视化

  • 通过使用图片或图形表示来解释概念、想法和事实的过程

11. 工具

  • MPP无共享技术和架构
  • 基于分布式文件的数据库
  • 数据库内算法
  • 大数据云解决方案
  • 统计计算和图形语言
  • 数据可视化工具集

12. 度量指标

  • 技术使用指标
  • 加载和扫描目标
  • 学习和故事场景
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值