均值归一化_不能不用也不可乱用的标准化和归一化处理

在机器学习中,数据预处理至关重要。标准化和归一化是两种常用的数据缩放技术,用于消除特征之间的量纲影响,确保不同特征在同一数量级上。归一化将数据缩放到[0,1]区间,而标准化则使数据具有均值0和方差1。这两种方法在距离敏感的算法如KNN、SVM、线性回归和神经网络中尤为必要,可以防止模型偏向于数值较大的特征,提高模型精度。对于含有噪声或异常值的大数据集,标准化可能更为合适。" 86576118,7548146,网站参数安全过滤实践,"['Web安全', '前端开发', '后端开发']
摘要由CSDN通过智能技术生成

a2025e7e-7c11-eb11-8da9-e4434bdf6706.png

今天这篇还是讲特征工程那一堆事,准确点说是数据预处理范畴内的,在做PCA降维时,我发现利用方差过滤出的主成分和利用PCA降维得到的主成分对应位置的方差有些不同:

VarianceThreshold:[90370.21684180899, 55277.04960170764, 51395.858083599174]
PCA:[176251.93379431,74196.48270488,55716.27982124]

之前说过PCA降维可以将原来高维的数据投影到某个低维的空间上并使得其方差尽量大。如果数据其中某一特征的数值特别大的话,那么它在整个误差计算的比重上就很大。所以将数据投影到低维空间之后,整个投影会去努力逼近数值最大的那一个特征,而忽略数值比较小的特征。

在建模前我们不知道每个特征的重要性,这很可能导致了大量的信息缺失。为了“公平”起见,防止过分捕捉某些数值大的特征,我们就可以先对每个特征先进行标准化处理,使得它们的大小都在相同的范围内,然后再进行PCA。

我们要处理的数据往往有着不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除特征之间的量纲影响,需要进行数据标准化处理。原始数据经过数据标准化处理后,数据集中每个特征就处于同一数量级,适合进行综合对比评价。

上面文字叙述可能相对抽象,就先通过一个简单的例子深入了解一下标准化和归一化的重

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值