一、 什么是数据挖掘?
数据挖掘的定义:
-
预测未来将要发生的事情
数仓是已经发生的,为了BI,大数据是AI 是做数据预测的
SCD 渐变类的维度
RapidMiner(AI 数据挖掘) -- 低代码 SQL
数据挖掘的应用场景:
案例:
-
结构化的数据
-
非结构化的数据
-
推荐引擎
-
在集群如何数据挖掘
-
数据在云端如何挖掘
-
RapidMiner 入门介绍(数据挖掘与分析)
二 、数据仓库和商务智能
1.概念
-
数据仓库是后端(Data Warhouse) 简称DW
-
商务智能是前端(Business Inteligence) 简称 BI
1.1 业务驱动因素
-
数据仓库建设的主要驱动力是运营支持职能,合规需求和商务智能活动(尽管不是多有的商务智能活动都依赖仓库数据)。
-
商务智能支持一直是建设数据仓库的主要原因,商务智能为组织、客户及产品提供洞察。通过商务智能获得决策知识并采取行动的组织,能提升运营效率,增强其竞争优势。
定义:通过规划、实施和控制过程,来提供决策支持数据,支持从事报告,查询和分析的知识工作者。
1.2目标和原则
一个组织建设数据仓库的目标:
-
支持商务智能活动
-
赋能商业分析和高效决策
-
基于数据洞察寻找创新方法。
数据仓库建设指导原则:
-
聚焦业务目标
确保仓库数据用于组织最优先级的业务并解决业务问题
(在数数据仓库的时候一定要清楚数据集中起来是干什么的,一定要清楚业务)
-
以终为始。让业务优先级和最终交付的数据范围驱动数据仓库内容的创建。
(以你最终的目标(业务实现)作为我数据仓库设计的一个起点)
-
全局性的思考和设计
局部性的行动和建设,就是说你一定要有一个顶层设计。具体落地呢,一步一步的来
-
总结并持续优化
而不是一开始就有这样。换言之,什么我要不断的优化,你要一步到位
-
提升透明度和自助服务
-
与数据仓库一起建立元数据。
-
协同
-
不要千篇一律。为每种数据消费则提供正确的工具和产品
商务智能
1. 基本概念
什么叫商务智能?有两层含义
-
第一层含义:商务智能指的是一种理解组织诉求和寻找机会的数据分析活动
-
第二层含义:商务智能指的是支持这类数据分析活动的技术集合。
什么叫数据仓库?两层含义:
-
一个集成的决策支持数据库
-
与之相关的用于收集、清洗、转换和存储来自各种操作和外部数据源数据的软件程序为了支持历史、分析类的和商务智能的需求,数据仓建设还包括相依赖的数据集市,数据集市是数据仓库中的数据子集副本等
2. 数据仓库建设的方法
大部分关于数据仓库构建的讨论,都受到两位有影响力的思想领袖Bill Inmon 和Ralph Kimball的影响,阿门各有不同的数据仓库建模和实施方法。
Bill Inmon (关系模型)把数据仓库定义为 面向主题的,整合的,随时间变化的,相对稳定的支持管理数据决策
Ralph Kimball (多维模型)把数据仓库定义为 查询和分析定制的交易数据的副本,称为多为模型
2.1 数据仓库遵循的核心理念(重点必考)
-
数据仓库存储的数据来自其他系统
-
存储行为包括提升数据价值的方式整合数据
-
数据仓库便于数据被访问和分析使用
-
组织建设数据仓库,因为他们需要让授权的利益相关方访问到可靠的、集成的数据
-
数据仓库数据建设有很多目的,涵盖工作流支持、运营管理和预测分析、(数仓侧重点是BI但是也可以是AI)
2.2CIF的组成部分包括:
-
应用程序
-
数据暂缓区
-
集成和转换
-
操作型数据存储
-
数据集市
-
操作型数据集市
-
数据仓库
-
运营报告
-
参考数据
2.3 企业信息工厂(Inmon 关系模型)
企业信息工厂是面向主题的,整合的随时间变化的,包含汇总和明细的,稳定的历史数据集合。这个概念适合CIF
数据仓库的组件必要(1,2,3):
-
源系统
-
数据集成ETL
-
数据存储区域
-
暂存区
-
参考数据和主数据一致性维度
-
中央数据仓库(必要)其他是可选
数据结构的设计元素包括:
-
-
基于性能考虑而设计的业务主键和代理主键之间的关系
-
创建索引和外键支持维度
-
用于检测、维护和存储历史记录的变更数据捕获(change Date Capture,简称CDC)技术
-
-
-
-
操作型数据存储(ODS)
-
数据集市
-
数据立方体
什么是星型模型:
-
星型模型:是一种非正规化的结构,多维数据集的每一个维度都直接与事实表相来连接,不存在渐变维度,所以数据有一定的冗余。
比如:销售数据仓库中的星型模型
-
什么是雪花模型?
-
雪花模型
雪花模型:当有一个或多个维度表没有直接连接到事实表上,而是通过其他维度表连接到事实表上时,其图解就像多个雪花连接在一起,故称雪花模型。雪花模型去除了数据冗余。 比如:销售数据仓库中的雪花模型
2.4 多维模型(多维数据仓库)
-
概念:多维模型通常称为星型模型,由事实表(包含有关业务流程的定量数据,如销售数据),和维度表(描述数据相关的描述属性等)组成的
加载数据处理的方式
数据仓库建设涉及两种主要的数据集成处理类型:历史数据加载和持续不断地的数据更新。历史数据通常只需要加载一次,或者为了处理数据委托加载有限的几次,然后再也不会加载。持续不断地数据更新,需要始终如一的规划和执行,以保证数据仓库中包含最新的数据
CDC技术比对方法
-
时间戳增量加载
-
日志表增量加载
-
数据库交易日志
-
消息增量
-
全量加载
问题:
第一个有几种方法可以来识别据是增量的数据?
-
4种 1,2,3,4
。第二个问题,我们要知道的是数据量最大的cdc是哪一个?
-
全量加载
工具
商务智能工具的类型
1.运行报表
2.业务绩效管理
3.运营分析应用
常见的OLAP操作包括:
-
切片
-
切块
-
向下/向上钻取
-
向上卷积
-
透视
三种经典的OLAP实现方法:
-
关系型联机分析处理(ROLAP)
-
多维矩阵联机分析处理(MOLAP)
-
混合型联机分析处理(HOLAP )
自助式商务智能
数据仓库度量指标
-
使用指标
-
主题域覆盖率
-
响应时间和性能指标
(OLAP响应时间 OLTP 性能)