归一化和标准化的一些理解

本文介绍了归一化和标准化在机器学习中的定义、作用及应用场景。归一化通过线性变换将数据映射到[0,1]之间,适用于精确小数据场景;而标准化采用z-score,使数据均值为0,标准差为1,适用于大数据场景,有助于消除量纲影响并优化距离计算。选择归一化还是标准化取决于是否希望保留原始数据的权重关系。" 106894230,9148874,离线笔记解决方案:git+typora的图片管理,"['git', '笔记工具', 'typora', '图片处理', 'Markdown']
摘要由CSDN通过智能技术生成

很多的时候我发现很多人和我一样我对机器学习的基本概念一知半解,比如我经常会听到归一化及标准化,傻傻分不清楚。最近看了一篇文章清楚的阐述了归一化和标准化的定义、适用场景、物理意义及使用意义。经过原作者授权以后,我想进行转发并加上我的一些理解,和更多的人一起学习进步。

在机器学习和数据挖掘中,经常会听到两个名词:归一化(Normalization)与标准化(Standardization)。它们具体是什么?带来什么益处?具体怎么用?本文来具体讨论这些问题。

一、是什么

1. 归一化

常用的方法是通过对原始数据进行线性变换把数据映射到[0,1]之间,变换函数为:


其中minmin是样本中最小值,maxmax是样本中最大值,注意在数据流场景下最大值与最小值是变化的。另外,最大值与最小值非常容易受异常点影响,所以这种方法鲁棒性较差,只适合传统精确小数据场景。

2. 标准化

常用的方法是z-score标准化,经过处理后的数据均值为0,标准差为1,处理方法是:


其中μμ是样本的均值,σσ是样本的标准差,它们可以通过现有样本进行估计。在已有样本足够多的情况下比较稳定,适合现代嘈杂大数据场景。

二、带来什么

归一化的依据非常简单ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值