标准化一个数据集涉及重新调整值的分布,以便使得观测值的平均值为0,标准差为1。这可以被认为是数据都减去了一个平均数或者中心化数据。
与归一化一样,标准化可能是有用的,甚至在某些机器学习算法中,当您的数据具有不同尺度的输入值时也是需要的。标准化假设您的观察值符合高斯分布(贝尔曲线),具有良好的均值和标准差。不满足这个期望,你仍然可以标准化你的时间序列数据,但是可能不会得到可靠的结果。
标准化需要你知道或者能够准确地估计观测值的均值和标准差。你可以从训练数据中估计这些值。数据集的均值和标准差估计对新数据的鲁棒性比最小和最大值更高。可以使用scikit-learn对象的StandardScaler来标准化你的数据集。
from sklearn.preprocessing import StandardScaler
from pandas import Series
from math import sqrt
data = [1.0, 5.5, 6.3, 9.2, 8.0, 8.4, 9.9, 10.0]
series = Series(data)
value = series.values.reshape(len(series), 1)
print(value)
scaler = StandardScaler().fit(value)
standardized = scaler.transform(value)
print(type(scaler))
print("均值为:%f, 标准方差为:%f" % (scaler.mean_, sqrt(scaler.mean_)))
print("标准化为:\n", standardized)
inversed = scaler.inverse_transform(standardized)
print(inversed)
'''
输出:
[[ 1. ]
[ 5.5]
[ 6.3]
[ 9.2]
[ 8. ]
[ 8.4]
[ 9.9]
[10. ]]
<class 'sklearn.preprocessing.data.StandardScaler'>
均值为:7.287500, 标准方差为:2.699537
标准化为:
[[-2.23542309]
[-0.6355179 ]
[-0.35109031]
[ 0.67995971]
[ 0.25331832]
[ 0.39553212]
[ 0.92883385]
[ 0.9643873 ]]
[[ 1. ]
[ 5.5]
[ 6.3]
[ 9.2]
[ 8. ]
[ 8.4]
[ 9.9]
[10. ]]
'''