机器学习小组知识点26:数据预处理之数据规约(Data Reduction)

数据归约是应对大数据分析时间长的有效策略,包括维归约、数据压缩和数值归约。维归约通过删除不相干属性减少数据量,常用方法有属性子集选择和判定归纳树。数据压缩涉及有损和无损压缩,如字符串压缩和音频/视频压缩,而主成分分析是常用的数据降维技术。数值归约则通过参数模型和无参方法减少数据表示形式。主成分分析是降低数据维度的重要手段,常用于数据预处理。
摘要由CSDN通过智能技术生成
数据归约策略
  • 数据仓库中往往具有海量的数据,在其上进行数据分析与挖掘需要很长的时间
  • 数据归约
    用于从源数据中得到数据集的归约表示,它小的很多,但可以产生相同的(几乎相同的)效果
  • 数据归约策略
    维归约
    数据压缩
    数值归约
    离散化和概念分层产生
  • 用于数据归约的时间不应超过或“抵消”在归约后的数据上挖掘节省的时间
维归约

通过删除不相干的额属性和维数减少数据量

  • 属性子集选择
    1找出最小的属性集,使得数据类的概率分布尽可能接近所有属性的原分布
    2 减少出现在出现模式上的属性的数目,使得模式更容易于理解
  • 启发式的(探索性的)方法
    逐步向前选择
    逐步向后删除
    向前选择和向后删除相结合
    判定归纳树(分类算法)
    基于统计分析的归约:主成分分析,回归分析
数据压缩
  • 有损压缩 vs 无损压缩
  • 字符串压缩
    有广泛的理论基础和精妙的算法
    通常是无损压缩
    在解压缩前对字符串的操作非常有限
  • 音频/视频 压缩
    通常是有损压缩,压缩精度可以递进选择
    有时候可以在不解压整体数据的情况下,重构某个片段
  • 两种有损数据压缩的方法: 小波变换和主要成分分析
数值归约
  • 通过选择替代的、较小的数据表示形式来减少数据量
  • 有参方法:使用一个参数模型估计数据,最后只要存储参数即可。
    线性回归方法
    多元回归
    对数线性模型:近似离散的多维数据概率分布
  • 无参方法
    直方图
    聚类
    选样
主成分分析

增加该节主要是现用最流行的降维方法
1. 设原始变量

X1,X2,,Xp

n 次观测数据矩阵为:
x11x21xn1x12x22xn2
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值