概要
信息收敛三角
业务驱动因素:期望从大数据集中发现更多的商业机会并采取行动,是提升一个组织大数据和数据科学能力的最大业务驱动力
目标和原则:大数据的前景取决于能够管理大数据。在许多方面,由于数据源和数据格式的巨大差异,大数据管理将比关系数据管理需要更多的原则。与大数据管理相关的原则尚未完全形成,但是一个很明确的原则:组织应该仔细管理与大数据源相关的元数据,以便对数据文件及其来源和价值进行准确的清单管理。
术语与重要概念
数据科学
数据科学流程
大数据
大数据架构组件
大数据的来源
数据湖
基于服务的架构
机器学习
语义分析
数据及文本挖掘
预测分析
规范性分析
非结构化数据分析
运营分析
数据湖混搭
活动
定义大数据战略和业务需求
-
组织正在尝试解决什么问题,需要分析什么
-
获取或使用哪些数据源
-
要提供的数据的及时性和范围
-
对其他数据结构的影响和与其他数据结构的关系
-
对现有已建模数据的影响
选择数据源
-
了解以下基本事实
-
它的起源
-
其格式
-
数据元素代表什么
-
它如何链接到其他数据
-
更新频率
-
-
评估数据的价值和可靠性。查看可用的数据源,以及创建这些数据源并管理新数据源计划的过程
-
基础数据
-
粒度
-
一致性
-
可靠性
-
检查/分析新数据源
-
获得和接收数据源
制定数据假设和方法
集成和对齐数据进行分析
使用模型探索数据
-
填充预测模型
-
训练模型
-
评估模型
-
创建可视化
部署和监控
-
揭示洞察和发现
-
使用附加数据源进行迭代
工具
MPP无共享技术和架构
分布式文件数据库
数据库内算法
大数据云解决方案
统计计算和图形语言
数据可视化工具集
解析建模和大数据建模
实施
战略一致性
就绪风险评估
组织文化变迁
大数据和科学治理
可视化渠道管理
数据科学及可视化标准
数据安全
元数据
数据质量
度量指标