数据预处理-数据规约

数据规约

数据规约指通过选择替代的、较小的数据来减少数据量,包括有参数方法和无参数方法两类。

有参数方法是使用一个模型来评估数据,只需存放参数,而不需要存放实际数据,例如回归(线性回归和多回归)和对数线性模型。无参数方法就需要存放实际数据,例如直方图、聚类、抽样。

(1)直方图
直方图实用分箱来近似数据分布,是一种流行的数据规约形式。属性A的直方图将A的数据分布划分为不想交的子集或桶。通过这种方式可以对数据进行规约,只用一个直方图表示大部分数据A属性的特征。

(2)聚类
聚类技术将数据元组视为对象。它将对象划分为簇,使一个簇中的对象那个相互“相似”,而与其他簇中的对象“相异”。在数据规约中,用数据的簇替换实际数据。该技术的有效性依赖于簇的定义是否符合分布性质。

(3)抽样
抽样应该是我们现实生活中最常采用也最多采用的数据规约技术,它的思路是用比原始数据小得多的随机样本表示原始数据集。假定原始数据集D包括N个元组,可以采用抽样方法对D进行抽样。

(4)参数回归
简单线性模型和对数模型可以采用近似描述给定的数据。线性模型对数据建模,使之拟合一条直线。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值