数据标准化与归一化

特征归一化、标准化的理解

数据集如果标准化处理,对机器学习中的很多算法(包括梯度下降),会有很好的优化效果。如果数据未标准化(例如,数据集特征之间相差的数量级较大时),很多算法的表现性能不佳。

首先理解方差、标准差和均方根误差的区别

方差(variance)

衡量随机变量或一组数据的离散(偏离)程度

概率论中,方差是用来度量随机变量和其数学期望的(均值)之间的偏离程度。

统计学中,各数据分别与其平均数之差的平方和

假设一组随机变量或统计数据的期望(均值)用 E ( x ) E(x) E(x)表示,则其方差表示为各数据与 E ( x ) E(x) E(x)差的平方和 ∑ [ x − E ( x ) ] 2 \sum[x-E(x)]^2 [xE(x)]2,然后再求其期望(均值)得 D ( x ) = ∑ [ x − E ( x ) ] 2 D(x)=\sum[x-E(x)]^2 D(x)=[xE(x)]2

为什么要使用标准差

根据上文我们知道方差是用来衡量随机变量或一组数据的离散(偏离)程度,标准差(也叫均方差)的公式为 σ = D ( x ) \sigma = \sqrt {D(x)} σ=D(x) ,方差和标准差有一个共有的性质:值越大分布曲线越扁也就是越分散。
由于数据是随机的,假设其同分布根据中心极限定理,该数据服从高斯(正太)分布(典型的例子就是误差),我们看下分布面积情况。
在这里插入图片描述
在使用标准差的时候我们可以清楚的看到数据属于某个值的概率。(我们处理特征的时候可以以此为依据筛选掉outlier)

横轴区间 ( μ

  • 11
    点赞
  • 33
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值