数据预处理——中心化和标准化

最新推荐文章于 2023-12-25 09:21:14 发布

矢頁

最新推荐文章于 2023-12-25 09:21:14 发布

阅读量806

点赞数 1

分类专栏：机器学习预处理

本文链接：https://blog.csdn.net/Evilock/article/details/103957482

版权

机器学习同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

预处理

1 篇文章 0 订阅

订阅专栏

1.什么是中心化和标准化？

中心化：所有数据之和为0
标准化：把数据的分布转化为正态分布
最后数据集变成均值为0，方差为1的分布。
计算过程如下：
在这里插入图片描述
处理前后的数据分布对比：

2.什么时候需要标准化？为什么需要？

当我们处理一个问题的时候需要用到各种各样的数据，然而他们的量级时常是不一样的，比如说在房价分析的时候，我们会有面积、地域、地价等等等等，面积这些都是几十几百，而地价这些都是百万级别的，如果不加处理的放在一起处理，那面积这个标准就没有任何作用了。

所以这个时候我们就需要用标准化处理这一手段

3.具体怎么做？

我们可以调用sklearn.perprocessing包里的scale来处理

from sklearn import preprocessing
import numpy as np

x = np.array([[1000., -1., 2.,1.,2.,-1.],
              [2., 0., 0.,1.,3.,-2],
              [0., 1., -1.,2.,0.,-40.]])
x_scale = preprocessing.scale(x)

得到的新的数据是
[[ 1.41421144, -1.22474487, 1.33630621, -0.70710678, 0.26726124, 0.7344706 ],[-0.70498228, 0., -0.26726124, -0.70710678, 1.06904497, 0.67938531],[-0.70922916, 1.22474487, -1.06904497, 1.41421356, -1.33630621, -1.41385591]])
明显是一个在正态分布里的排列
我们把它挂出来

import matplotlib.pyplot as plt
plt.figure(figsize = (15,15),dpi = 80)
for i in list(x_scale):
    plt.scatter(range(6),i)

在这里插入图片描述
原本的1000,-400这种奇奇怪怪的数据页没有体现出来，说明这个分布确实合理了（但是这个地方我不知道会不会丢失掉突出数据的数据，很难说）

矢頁

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据预处理——中心化和标准化

1.什么是中心化和标准化？中心化：所有数据之和为0标准化：把数据的分布转化为正态分布最后数据集变成均值为0，方差为1的分布。计算过程如下：处理前后的数据分布对比：2.什么时候需要标准化？为什么需要？当我们处理一个问题的时候需要用到各种各样的数据，然而他们的量级时常是不一样的，比如说在房价分析的时候，我们会有面积、地域、地价等等等等，面积这些都是几十几百，而地价这些都是百万级别的，...
复制链接

扫一扫

专栏目录