数据仓库学习02-数据仓库的数据存储与处理

最新推荐文章于 2024-08-30 22:14:50 发布

SSS迪

最新推荐文章于 2024-08-30 22:14:50 发布

阅读量2.9k

点赞数 1

分类专栏：数据仓库学习文章标签： c++ c语言算法

本文链接：https://blog.csdn.net/qq_45803800/article/details/123303136

版权

数据仓库学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

数据仓库的三层数据结构
请添加图片描述

EDW与ODS

数据仓库的数据特征

状态数据与事件数据
当前数据与周期数据
数据仓库中的元数据

数据仓库的数据ETL过程

ETL概念
数据的ETL过程描述
抽取（Capture/Extract）
清洗（Scrub/Cleanse）
转换（Transform）
集成（Data Integration）
加载和索引（Load/Index）

ETL的概念：数据ETL是用来实现异构数据源的数据集成，
即完成数据的抓取/抽取（Capture/Extract）、清洗（Scrub or data cleansing）、转换（Transform）、装载与索引（Load and Index）等数据调和工作。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lvnATDI3-1646492786850)(./images/1645779183814.png)]

数据抽取
数据命名的透明度（什么数据存放在哪个源系统当中）
由一个源系统实施的业务规则的完整性和准确性（数据的精度）
数据格式（跨数据源的数据格式）

数据清理：对数据进行重新审查和校验的过程。其目的在于纠正存在的错误，并提供数据一致性

缺失值的处理；
噪声数据；
不一致数据。

引起空缺值的原因
设备异常
与其他已有数据不一致而被删除
因为误解而没有被输入的数据
在输入时，有些数据因为得不到重视而没有被输入
对数据的改变没有进行日志记载
空缺值要经过推断而补上

如何处理空缺值？

1）忽略元组：
若一条记录中有属性值被遗漏了，则将该记录排除在数据挖掘之外
但是，当某类属性的空缺值所占百分比很大时，直接忽略元组会使挖掘性能变得非常差
2）忽略属性列：
若某个属性的缺失值太多，则在整个数据集中可以忽略该属性

3）人工填写空缺值：
工作量大，可行性低
4）使用属性的中心度量值填充空缺值：
如一条属于a类的记录在A属性上存在缺失值，那么可以用该属性上属于a类全部记录的平均值来代替该缺失值。
如面对顾客一次来超市时最常消费的钱数这一字段，可以按照顾客的年龄这一字段进行分类，使用处于相同年龄段的顾客的平均消费的钱数来填充缺失值。

5）使用一个全局变量填充空缺值：
对一个所有属性的所有缺失值都使用一个固定的值来填补（如“Not sure”或∞）。
尽管该方法简单，并不推荐它
挖掘的程序可能会误以为这是一个特殊的概念

6）使用可能的特征值来替换空缺值（最常用）：
数据挖掘者可以生成一个预测模型，来预测每个丢失值
如可以利用回归、贝叶斯计算公式或判定树归纳确定，推断出该条记录特定属性最大可能的取值
如每个样本给定3个特征A、B、C，那么可以根据三个值全都作为一个训练集的样本，生成一个特征之间的关系模型，一旦有了训练好的模型，就可以提出一个包含丢失值的新样本，并产生预测值。

噪声数据
噪声(noise) ：被测量的变量产生的随机错误或误差
数据收集工具的问题
数据输入错误
数据传输错误
技术限制
命名规则的不一致