标准化序列数据

标准化一个数据集涉及重新调整值的分布,以便使得观测值的平均值为0,标准差为1。这可以被认为是数据都减去了一个平均数或者中心化数据。

与归一化一样,标准化可能是有用的,甚至在某些机器学习算法中,当您的数据具有不同尺度的输入值时也是需要的。标准化假设您的观察值符合高斯分布(贝尔曲线),具有良好的均值和标准差。不满足这个期望,你仍然可以标准化你的时间序列数据,但是可能不会得到可靠的结果。

标准化需要你知道或者能够准确地估计观测值的均值和标准差。你可以从训练数据中估计这些值。数据集的均值和标准差估计对新数据的鲁棒性比最小和最大值更高。可以使用scikit-learn对象的StandardScaler来标准化你的数据集。

from sklearn.preprocessing import StandardScaler
from pandas import Series
from math import sqrt

data = [1.0, 5.5, 6.3, 9.2, 8.0, 8.4, 9.9, 10.0]
series = Series(data)
value = series.values.reshape(len(series), 1)
print(value)

scaler = StandardScaler().fit(value)
standardized = scaler.transform(value)
print(type(scaler))
print("均值为:%f, 标准方差为:%f" % (scaler.mean_,  sqrt(scaler.mean_)))
print("标准化为:\n", standardized)

inversed = scaler.inverse_transform(standardized)
print(inversed)

'''
输出:
[[ 1. ]
 [ 5.5]
 [ 6.3]
 [ 9.2]
 [ 8. ]
 [ 8.4]
 [ 9.9]
 [10. ]]
<class 'sklearn.preprocessing.data.StandardScaler'>
均值为:7.287500, 标准方差为:2.699537
标准化为:
 [[-2.23542309]
 [-0.6355179 ]
 [-0.35109031]
 [ 0.67995971]
 [ 0.25331832]
 [ 0.39553212]
 [ 0.92883385]
 [ 0.9643873 ]]
[[ 1. ]
 [ 5.5]
 [ 6.3]
 [ 9.2]
 [ 8. ]
 [ 8.4]
 [ 9.9]
 [10. ]]
'''

 

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值