数据预处理工作中的几个关键主题探讨:聚集、抽样、降维、离散化、变量变换等

数据预处理是数据挖掘的基础,涉及聚集、抽样、降维、离散化、变量变换等多个步骤。聚集通过合并属性值减少数据量;抽样选择数据子集,如简单随机抽样、分层抽样;降维如PCA,避免维灾难,提升模型效率;离散化和二元化将连续或分类数据转化为适合挖掘的形式;变量变换则包括简单函数变换和规范化,调整数据分布和尺度。
摘要由CSDN通过智能技术生成

数据预处理是数据挖掘领域必不可少的前提工作。经过预处理的功数据才更加有质量,更好地适应数据挖掘的算法过程、减少运算量或优化运算过程,在某些时候甚至起到决定结果好坏的作用。

我们讨论如下几个主题:

一、聚集

二、抽样

三、维归约(降维)

四、特征子集

五、特征创建

六、离散化和二元化

七、变量变换


粗略地说,我们要探讨的问题分类:对数据的分析和对数据属性的创建/修改。

有些比较简单、顾名思义的工作,就不再多赘述了。

一、聚集

聚集就是积少成多,把两个及以上的对象合并为单个对象。

有时候我们要考虑的对象很多,比如一个超市中顾客的数据,除了买了什么商品,还有商品的日期、价格、税费、时间点、日期、季节时令等等,此时我们要考虑的就是如何合并所有记录的每个属性的值。定量属性(如价格)通常使用求和、求平均等方法进行聚集;定性属性可以忽略或汇总来处理。

聚集的动机有多种:1、较小的数据集,占据较小的内存,而可以使用开销更大的算法;2、通过高层(高级别)的数据,可以起到范围或标度的转换作用;3、对象或属性群的行为通常比单个对象或单个属性的行为更加稳定(比如平均数、总数等指标往往具有较小的变异性)。

二、抽样

抽样是一种选择数据的子集进行分析的常用方法。

抽样方法:

  • 5
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值