特征归一化、标准化的理解
数据集如果标准化处理,对机器学习中的很多算法(包括梯度下降),会有很好的优化效果。如果数据未标准化(例如,数据集特征之间相差的数量级较大时),很多算法的表现性能不佳。
首先理解方差、标准差和均方根误差的区别
方差(variance)
衡量随机变量或一组数据的离散(偏离)程度
概率论中,方差是用来度量随机变量和其数学期望的(均值)之间的偏离程度。
统计学中,各数据分别与其平均数之差的平方和
假设一组随机变量或统计数据的期望(均值)用 E ( x ) E(x) E(x)表示,则其方差表示为各数据与 E ( x ) E(x) E(x)差的平方和 ∑ [ x − E ( x ) ] 2 \sum[x-E(x)]^2 ∑[x−E(x)]2,然后再求其期望(均值)得 D ( x ) = ∑ [ x − E ( x ) ] 2 D(x)=\sum[x-E(x)]^2 D(x)=∑[x−E(x)]2
为什么要使用标准差
根据上文我们知道方差是用来衡量随机变量或一组数据的离散(偏离)程度,标准差(也叫均方差)的公式为 σ = D ( x ) \sigma = \sqrt {D(x)} σ=D(x),方差和标准差有一个共有的性质:值越大分布曲线越扁也就是越分散。
由于数据是随机的,假设其同分布根据中心极限定理,该数据服从高斯(正太)分布(典型的例子就是误差),我们看下分布面积情况。
在使用标准差的时候我们可以清楚的看到数据属于某个值的概率。(我们处理特征的时候可以以此为依据筛选掉outlier)
横轴区间 ( μ