数据挖掘笔记(2)-数据规约

数据规约

    对于中小型数据集而言,前面提到的数据挖掘准备中的预处理步骤通常足够了。但对于真正意义上的大型数据集,在应用数据挖掘技术之前,还需要执行一个中间的、额外的步骤—数据规约。本次主要说维规约。

  3.1 大型数据的维度

    数据规约过程的3个基本操作是删除列、删除行、减少列中值的数量。

    全面分析下述参数:计算时间、预测/描述精度、数据挖掘模型的描述

  3.2 特征规约

           “维数灾”

  3.2.1 特征选择

              算法一般分为两类:特征排列算法和子集选择算法

     3.2.2 特征提取

       数据挖掘技术始于适当数据表达方式的设计。 把输入集转换为新的规约特征集称为特征提取。

  3.3 Relief 算法

     Relief算法是一个基于特征加权的特征选择算法,它的灵感来自所谓的基于实例学习。Relief算法的要点是为每个特征计算一个等级分数,表示这个特征区分邻近样本的能力。Relief算法的核心是根据特征值区分邻近样本的能力,来评估特征的质量。

     Relief算法比较简单,它完全依赖统计方法。

  3.4 特征排列的熵度量

      3.5 主成分分析

     最流行的大型数据集维规约的统计方法是Karhunen-Loeve(K-L)方法,也叫主成分分析(PCA)。

  3.6 值规约

     减少已知特征的离散值数目是基于数据规约阶段的第二套技术,即特征离散化技术。

  3.7 特征离散化:ChiMerge技术

  3.8 案例规约

 

    

    

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值