数据——数据预处理

1. 聚集

概念:将两个或多个对象合并成单个对象。
优点:a.数据归约导致的较小数据集需要较少的内存和处理时间。
   b.对象或属性群的行为通常比单个对象或属性的行为更加稳定。
缺点:可能丢失有趣的细节。

2.抽样

概念:选择数据对象子集进行分析。
优点:可以压缩数据量

3.维归约

优点:a.降低维度(数据属性的个数),提高算法效果。
   b.降低数据挖掘算法的时间和内存需要。

维灾难:随着数据维度的增加,许多数据分析变得非常困难。

4.特征子集选择

概念:仅使用特征的一个子集。
提出原因:冗余和不相关的特征可能降低分类的准确率,影响所发现的聚类的质量。

5.特征创建

概念:可以由原来的属性创建新的属性集,更有效地捕获数据集中的重要信息。

创建新属性方法:

  1. 特征提取:由原始数据创建新的特征集。
  2. 映射数据到新的空间:使用一种完全不同的视角挖掘数据可能揭示出重要和有趣的特征。(例如时域到频域的转换)
  3. 特征构造:原始数据集的特征具有必要的信息,但其形式不适合数据挖掘算法,在这种情况下,一个或多个由原特征构造的新特征可能比原特征更有用。

6.离散化和二元化

概念:某些数据挖掘算法,要求数据是分类属性形式,常常需要将连续属性变换成分类属性(离散化),并且连续和离散属性可能都需要变换成一个或多个二元属性(二元化)。

二元化例子:一个分类属性到三个二元属性的变换 3→011

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值