你可以的!

数据预处理总结

  1. 数据质量用准确性、完整性、一致性、时效性、可信性和可解释性定义。质量基于数据的应用目的评估。
  2. 数据清理例程试图填补缺失的值,光滑噪声同时识别离群点,并纠正数据的不一致性,数据清理通常是一个两步的迭代过程,包括偏差检测和数据变换。
  3. 数据集成将来自多个数据源的数据整合成一致的数据存储。语义异种性的解决、元数据、相关分析、原组重复检测和数据冲突检测都有助于数据的顺利集成。
  4. 数据规约得到数据的规约表示,而是的信息内容的损失最小化。数据规约方法包括维归约、数量规约和数据压缩。维归约减少所考虑的随机变量或维的个数,方法包括小波变换、主成分分析、属性子集选择和属性创建。数量归约方法使用参数或非参数模型。非参数方法包括直方图、聚类、抽样和数据立方体聚集。数据压缩方法使用变换,得到原数据的归约或压缩表示。如果原数据可以有压缩后的数据重构,而不损失任何信息,则数据压缩是无损的;否则,它是有损的。
  5. 数据变换例程将数据变换成适用于挖掘的形式。规范化中,属性数据可以缩放,使得他们可以落在较小的区间。
  6. 数据离散化通过把值映射到区间或概念标号变换数值数据,这种方法可以用来自动地产生数据的概念分层,而概念分层允许在多个粒度层进行挖掘。离散化技术包括分箱、直方图分析、聚类分析、决策树分析和相关分析。对于标称数据,概念分层可以基于模式定义以及每个属性的不同值个数产生。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值