机器学习中的数据归一化

von Libniz

已于 2022-02-02 10:12:34 修改

阅读量2.4k

点赞数 2

分类专栏：机器学习文章标签：机器学习深度学习人工智能

于 2022-02-02 10:11:17 首次发布

本文链接：https://blog.csdn.net/demon_lmman/article/details/122768013

版权

机器学习专栏收录该内容

20 篇文章 2 订阅

订阅专栏

最值归一化 normalization

最值归一化：把所有的数据映射到[0,1]之间。

$\large x=\frac{x-x_{min}}{x_{max}-x_{min}}$

下面使用np实现最值归一化。

import numpy as np
import matplotlib.pyplot as plt
#生成数据
X=np.random.randint(0,10,(30,2))
X=np.array(X,dtype=float)

观察归一化之前的数据分布。

plt.scatter(X[:,0],X[:,1])
plt.show()

在这里插入图片描述
进行最值归一化。

X[:,0]=(X[:,0]-np.min(X[:,0]))/(np.max(X[:,0])-np.min(X[:,0]))
X[:,1]=(X[:,1]-np.min(X[:,1]))/(np.max(X[:,1])-np.min(X[:,1]))

再次观察分布，可以发现数据都被映射到了[0,1]之间。

plt.scatter(X[:,0],X[:,1])
plt.show()

在这里插入图片描述

均值方差归一化 Standardization

$\large x=\frac{x-x_{mean}}{x_{std}}$
均值方差归一化也叫做数据标准化，适用于数据分布没有明显边界的情况：可能存在极端数据。例如，假设100个数据中，99个都分布在[0,100]之间，而剩下的一个大小为10000，那经过最值归一化，10000显然映射为了1，而其他数据则都在[0,0.01]之间。

X=np.random.randint(0,10,(30,2))
X=np.array(X,dtype=float)
plt.scatter(X[:,0],X[:,1])
plt.show()

在这里插入图片描述

X[:,0]=(X[:,0]-np.mean(X[:,0]))/np.std(X[:,0])
X[:,1]=(X[:,1]-np.mean(X[:,1]))/np.std(X[:,1])
plt.scatter(X[:,0],X[:,1])
plt.show()

在这里插入图片描述

von Libniz

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
机器学习中的数据归一化

最值归一化 normalization最值归一化：把所有的数据映射到[0,1]之间。x=x−xminxmax−xmin\large x=\frac{x-x_{min}}{x_{max}-x_{min}}x=xmax−xminx−xmin下面使用np实现最值归一化。import numpy as npimport matplotlib.pyplot as plt#生成数据X=np.random.randint(0,10,(30,2))X=np.array(X,dtype=float
复制链接

扫一扫

专栏目录