标准化序列数据

最新推荐文章于 2024-03-06 21:23:45 发布

Chz9523

最新推荐文章于 2024-03-06 21:23:45 发布

阅读量1.6k

点赞数 2

分类专栏： python

本文链接：https://blog.csdn.net/weixin_40789411/article/details/87733978

版权

python 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

标准化一个数据集涉及重新调整值的分布，以便使得观测值的平均值为0，标准差为1。这可以被认为是数据都减去了一个平均数或者中心化数据。

与归一化一样，标准化可能是有用的，甚至在某些机器学习算法中，当您的数据具有不同尺度的输入值时也是需要的。标准化假设您的观察值符合高斯分布（贝尔曲线），具有良好的均值和标准差。不满足这个期望，你仍然可以标准化你的时间序列数据，但是可能不会得到可靠的结果。

标准化需要你知道或者能够准确地估计观测值的均值和标准差。你可以从训练数据中估计这些值。数据集的均值和标准差估计对新数据的鲁棒性比最小和最大值更高。可以使用scikit-learn对象的StandardScaler来标准化你的数据集。

from sklearn.preprocessing import StandardScaler
from pandas import Series
from math import sqrt

data = [1.0, 5.5, 6.3, 9.2, 8.0, 8.4, 9.9, 10.0]
series = Series(data)
value = series.values.reshape(len(series), 1)
print(value)

scaler = StandardScaler().fit(value)
standardized = scaler.transform(value)
print(type(scaler))
print("均值为：%f, 标准方差为：%f" % (scaler.mean_,  sqrt(scaler.mean_)))
print("标准化为：\n", standardized)

inversed = scaler.inverse_transform(standardized)
print(inversed)

'''
输出：
[[ 1. ]
 [ 5.5]
 [ 6.3]
 [ 9.2]
 [ 8. ]
 [ 8.4]
 [ 9.9]
 [10. ]]
<class 'sklearn.preprocessing.data.StandardScaler'>
均值为：7.287500, 标准方差为：2.699537
标准化为：
 [[-2.23542309]
 [-0.6355179 ]
 [-0.35109031]
 [ 0.67995971]
 [ 0.25331832]
 [ 0.39553212]
 [ 0.92883385]
 [ 0.9643873 ]]
[[ 1. ]
 [ 5.5]
 [ 6.3]
 [ 9.2]
 [ 8. ]
 [ 8.4]
 [ 9.9]
 [10. ]]
'''

Chz9523

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
标准化序列数据

标准化一个数据集涉及重新调整值的分布，以便使得观测值的平均值为0，标准差为1。这可以被认为是数据都减去了一个平均数或者中心化数据。与归一化一样，标准化可能是有用的，甚至在某些机器学习算法中，当您的数据具有不同尺度的输入值时也是需要的。标准化假设您的观察值符合高斯分布（贝尔曲线），具有良好的均值和标准差。不满足这个期望，你仍然可以标准化你的时间序列数据，但是可能不会得到可靠的结果。标准化需要...
复制链接

扫一扫