-
对现实世界中的同一实体,来自不同数据源的属性值可能是不同的
-
集成多个数据库时,经常会出现冗余数据
-
数据仓库需要对高质量的数据进行一致地集成
-
数据仓库往往存有海量数据,在其上进行复杂的数据分析与挖掘需要很长的时间
-
高质量的决策必须依赖高质量的数据
-
数据可以分层聚类,并被存储在多层索引树中。
-
用于数据规约的时间不应当超过或抵消在归约后的数据上挖掘节省的时间
-
连续属性离散化的问题本质是决定选择多少个分割点和确定分割点位置
-
离散化通过将属性域划分为区间,减少给定连续属性值的个数
-
视频压缩通常是有损压缩,压缩精度可以递进选择
-
处理噪声的方法中,首先排序数据,并将他们分到等深的箱中的方法为分箱,也可通过聚类分析查找孤立点,消除噪声。
-
可以使用一个全局变量或属性的平均值填充空缺值。
-
数据并不总是完整的,引起空缺值的原因有:设备异常 与其他已有数据不一致而被删除 因为误解而没有被输入 在输入时,有些数据因为得不到重视而没有被输入 对数据的改变没有进行日志记载
-
数据归约策略:数据压缩 数据立方体聚集 离散化和概念分层产生 维归约
-
概念分层通过使用高层的概念来替代底层的属性值来规约数据
-
引起噪声数据的原因:数据收集工具的问题 数据输入错误 数据传输错误 技术限制 命名规则的不一致
-
数据预处理的主要任务:数据清理 数据集成 数据变换 数据归约 数据离散化
-
在数据立方体中存在着不同级别的汇总
-
分类数据是指无序的离散数据,它有有限个值
-
肮脏数据的特点:不完整的——有些感兴趣的属性缺少属性值,或仅包含聚集数据 含噪声的——包含错误或孤立点 不一致的:在编码或者命名上存在差异
-
数值归约:通过选择替代的、较小的数据表示形式来减少数据量
-
没有高质量的数据,就没有高质量的挖掘结果
数据预处理习题
最新推荐文章于 2024-04-29 13:53:44 发布