数据处理之 数据归一化
数据标准化(归一化)-Normalization
来自百度百科的解释:
数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。数据同趋化处理主要解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同作用力的综合结果,须先考虑改变逆指标数据性质,使所有指标对测评方案的作用力同趋化,再加总才能得出正确结果。数据无量纲化处理主要解决数据的可比性。
通俗的说就是把所有的数据“按比例”增大缩小到某个范围
归一化就是把范围限制在0~1
1、min-max标准化(Min-maxnormalization)
也叫离差标准化、线性归一化,对原始数据的线性变换,使结果落到[0,1]区间
x
i
′
=
x
i
−
m
i
n
(
x
j
)
(
0
≤
j
≤
n
)
m
a
x
(
x
j
)
(
0
≤
j
≤
n
)
−
m
i
n
(
x
j
)
(
0
≤
j
≤
n
)
x^{'}_{i}=\frac{x_{i}-min(x_{j})(0\le{j}\le{n})}{max(x_{j})(0\le{j}\le{n})-min(x_{j})(0\le{j}\le{n})}
xi′=max(xj)(0≤j≤n)−min(xj)(0≤j≤n)xi−min(xj)(0≤j≤n)
优点:适用在数值较集中的情况
缺点:当有新数据加入时,可能导致max和min的变化,不稳定
2.z-score 标准化(zero-meannormalization)
也称标准差归一化,也叫Z-score标准化
x
′
=
x
−
μ
σ
x'=\frac{x-μ}{σ}
x′=σx−μ
μ
:
均
值
−
−
−
μ
=
1
n
∑
i
=
1
n
x
i
μ:均值---μ=\frac{1}{n}\sum_{i=1}^{n}x_{i}
μ:均值−−−μ=n1i=1∑nxi
σ
:
标
准
差
−
−
σ
=
1
n
−
1
∑
i
=
1
n
(
x
i
−
μ
)
2
σ:标准差--σ=\sqrt {\frac{1}{n-1}\sum_{i=1}^{n}(x_{i}-μ)^{2}}
σ:标准差−−σ=n−11i=1∑n(xi−μ)2
经过处理后的数据符合标准正态分布,即均值为0,标准差为1
3.非线性归一化
l o g 函 数 转 换 x i ′ = l g ( x i ) m a x ( x j ) ( 0 ≤ x ≤ n ) log函数转换 \ \ \ \ x'_{i}=\frac{lg(x_{i})}{max(x_{j})(0\le{x}\le{n)}} log函数转换 xi′=max(xj)(0≤x≤n)lg(xi)
a r c t a n 函 数 变 换 x i ′ = a r c t a n ( x i ) ∗ π 2 arctan函数变换\ \ \ \ x_{i}'=arctan(x_{i})*\frac{\pi}{2} arctan函数变换 xi′=arctan(xi)∗2π
s i g m o i d 函 数 S ( x ) = 1 1 + e − x sigmoid函数\ \ \ \ S(x)=\frac{1}{1+e^{-x}} sigmoid函数 S(x)=1+e−x1
深度学习中的一些归一化可参考:http://t.csdn.cn/Z0lEZ