数据预处理之数据变换

本文介绍了数据预处理中的关键步骤,包括简单函数变换、标准化变换以消除量纲影响,讨论了连续变量如何通过离差标准化进行离散化,以及分类变量的处理,如使用独热编码进行编码。MATLAB提供了实现这些操作的方法。
摘要由CSDN通过智能技术生成

简单函数变换

在某些情况下,采取一些简单的函数变换对我们的建模会有所帮助。 比如:
当使用线性回归模型无法很好地拟合数据时,先对数据做一个 log 变换(转换成 非线性模型),再进行拟合往往会有不错的效果;
当数据跨度非常大时,数据较为稀疏,不便于计算机处理,此时对数据做一个 log10 变换可以使数据跨度变小,数据更为密集,方便运算。

 标准化变换

标准化,又称规范化,目的是将原来的度量值转换为无量纲的值,使得不同量纲 的指标可以在同一水平线上进行比较,而且除了概率模型(树模型)之外,其他模型如神经网络、最邻近分类和聚类算法等,都需要先对数据进行标准化,以消除量纲,缩放数据,加快算法的收敛速度。
MATLAB 提供了 normalize 函数对数据进行标准化,语法格式如下:
N = normalize(A, dim, method, methodtype)
A: 输入数据,指定为标量、向量、矩阵、多维数组、表或时间表。
dim: 运算维度,默认为 1,按列进行标准化; 设为 2 则按行进行标准化。
method: 字符型参数,默认为‘zscore’法,具体选项见下表:

 连续属性离散化: 也即离差标准化,公式如下:

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值