第十四章大数据和数据科学

概要

信息收敛三角

业务驱动因素:期望从大数据集中发现更多的商业机会并采取行动,是提升一个组织大数据和数据科学能力的最大业务驱动力

目标和原则:大数据的前景取决于能够管理大数据。在许多方面,由于数据源和数据格式的巨大差异,大数据管理将比关系数据管理需要更多的原则。与大数据管理相关的原则尚未完全形成,但是一个很明确的原则:组织应该仔细管理与大数据源相关的元数据,以便对数据文件及其来源和价值进行准确的清单管理。

术语与重要概念

数据科学

数据科学流程

大数据

大数据架构组件

大数据的来源

数据湖

基于服务的架构

机器学习

语义分析

数据及文本挖掘

预测分析

规范性分析

非结构化数据分析

运营分析

数据湖混搭

活动

定义大数据战略和业务需求

  1. 组织正在尝试解决什么问题,需要分析什么

  2. 获取或使用哪些数据源

  3. 要提供的数据的及时性和范围

  4. 对其他数据结构的影响和与其他数据结构的关系

  5. 对现有已建模数据的影响

选择数据源

  1. 了解以下基本事实

    1. 它的起源

    2. 其格式

    3. 数据元素代表什么

    4. 它如何链接到其他数据

    5. 更新频率

  2. 评估数据的价值和可靠性。查看可用的数据源,以及创建这些数据源并管理新数据源计划的过程

    1. 基础数据

    2. 粒度

    3. 一致性

    4. 可靠性

    5. 检查/分析新数据源

获得和接收数据源

制定数据假设和方法

集成和对齐数据进行分析

使用模型探索数据

  1. 填充预测模型

  2. 训练模型

  3. 评估模型

  4. 创建可视化

部署和监控

  1. 揭示洞察和发现

  2. 使用附加数据源进行迭代

工具

MPP无共享技术和架构

分布式文件数据库

数据库内算法

大数据云解决方案

统计计算和图形语言

数据可视化工具集

解析建模和大数据建模

实施

战略一致性

就绪风险评估

组织文化变迁

大数据和科学治理

可视化渠道管理

数据科学及可视化标准

数据安全

元数据

数据质量

度量指标

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值