数据预处理习题

  • 对现实世界中的同一实体,来自不同数据源的属性值可能是不同的

  • 集成多个数据库时,经常会出现冗余数据

  • 数据仓库需要对高质量的数据进行一致地集成

  • 数据仓库往往存有海量数据,在其上进行复杂的数据分析与挖掘需要很长的时间

  • 高质量的决策必须依赖高质量的数据

  • 数据可以分层聚类,并被存储在多层索引树中。

  • 用于数据规约的时间不应当超过或抵消在归约后的数据上挖掘节省的时间

  • 连续属性离散化的问题本质是决定选择多少个分割点和确定分割点位置

  • 离散化通过将属性域划分为区间,减少给定连续属性值的个数

  • 视频压缩通常是有损压缩,压缩精度可以递进选择

  • 处理噪声的方法中,首先排序数据,并将他们分到等深的箱中的方法为分箱,也可通过聚类分析查找孤立点,消除噪声。

  • 可以使用一个全局变量或属性的平均值填充空缺值。

  • 数据并不总是完整的,引起空缺值的原因有:设备异常 与其他已有数据不一致而被删除 因为误解而没有被输入 在输入时,有些数据因为得不到重视而没有被输入 对数据的改变没有进行日志记载

  • 数据归约策略:数据压缩 数据立方体聚集 离散化和概念分层产生 维归约

  • 概念分层通过使用高层的概念来替代底层的属性值来规约数据

  • 引起噪声数据的原因:数据收集工具的问题 数据输入错误 数据传输错误 技术限制 命名规则的不一致

  • 数据预处理的主要任务:数据清理 数据集成 数据变换 数据归约 数据离散化

  • 在数据立方体中存在着不同级别的汇总

  • 分类数据是指无序的离散数据,它有有限个值

  • 肮脏数据的特点:不完整的——有些感兴趣的属性缺少属性值,或仅包含聚集数据 含噪声的——包含错误或孤立点 不一致的:在编码或者命名上存在差异

  • 数值归约:通过选择替代的、较小的数据表示形式来减少数据量

  • 没有高质量的数据,就没有高质量的挖掘结果

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

饼干饼干圆又圆

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值