pandas:数据规范化方法与python实现

最新推荐文章于 2020-12-15 11:53:17 发布

Rookiekk

最新推荐文章于 2020-12-15 11:53:17 发布

阅读量6k

点赞数 10

分类专栏：数据分析与预处理文章标签：规范化标准化 python

本文链接：https://blog.csdn.net/qq_18888869/article/details/83898566

版权

数据分析与预处理专栏收录该内容

7 篇文章 0 订阅

订阅专栏

这里就不说为什么要做数据规范化了，直接讲几种规范化的方法。

有许多规范化的方法，我们将学习种：最大-最小规范化、分数规范化、小数定标规范化。这里令是数值属性，具有个观测值 $v_{1},v_{2},...,v_{n}$ 。

一、原理

1.最大-最小规范化

假设 $min_{A}$ 和 $max_{A}$ 分别为属性的最大值和最小值。最小-最大规范化通过计算

$v_{i}^{'}=\frac{v_{i}-min_{A}}{max_{A}-min_{A}}(newmax_{A}-newmin_{A}) + newmin_{A}$

把A的值 $v_{i}$ 映射到区间 $newmin_{A}$ , $newmax_{A}$ 中的 $v_{i}^{'}$ 。

最小-最大规范化保持原始数据值之间的联系。如果今后的输入实例落在的原数据值域之外，则该方法将面临“越界”错误。

2.分数（z-score）规范化(或零均值规范化)

属性的值基于的均值（即平均值）和标准差规范化。的值 $v_{i}$ 被规范化为 $v_{i}^{'}$ ，由下式计算：

$v_{i}^{'}=\frac{v_{i}-\overline{A}}{\sigma_{A}}$

其中， $\overline{A}$ 和 $\sigma _{A}$ 分别为属性的均值和标准差。

上面的标准差可以用均值绝对偏差替换。的均值绝对偏差（mean absolute deviation） $s_{A}$ 定义为

$s_{A}=\frac{1}{n}(\left | v_{1}-\overline{A} \right | + \left |v_{2}-\overline{A} \right |+...+\left | v_{n}-\overline{A} \right |)$

这样，使用均值绝对差的分数规范化为

$v_{i}^{'}=\frac{v_{i}-\overline{A}}{s_{A}}$

对于离群点，均值绝对偏差 $s_{A}$ 比标准差更加鲁棒。在计算均值绝对偏差时，不对到均值的偏差即 $(\left | x_{i}-\overline{x} \right |)$ 取平方，因此离群点的影响多少有点降低。

3.小数定标规范化

小数定标规范化通过移动属性值的小数定位置进行规范化。小数点的移动位数依赖于的最大绝对值。A的值 $v_{i}$ 被规范化为 $v_{i}^{'}$ ,由下式计算：

$v_{i}^{'}=\frac{v_{i}}{10^{j}}$

其中是使得 $max(v_{i}^{'})<1$ 的最小整数。

举例：

假设的取值由到 917 。的最大绝对值为 986 。因此，为使用小数定标规范化，我们用 1000 （即 j=3 ）除每个值。因此，被规范化为 -0.986 ，而 917 被规范化为 0.917 。

注意，规范化可能将原来的数据改变很多，特别是使用分数规范化或小数定标规范化时尤其如此。有必要保留规范化参数（如均值和标准差，如果使用分数规范化的话），以便将来的数据可以用一致的方式规范化。

4.归一化方法

由下式进行计算:

$y_{i}=\frac{x_{i}}{\sum_{i=1}^{n}x_{i}}$

则 $y_{i}\in [0,1]$ 且无量纲，并且显然有 $\sum_{i=1}^{n}y_{i}=1$ 。

二、代码实现

#-*- coding: utf-8 -*-
#数据规范化
import pandas as pd
import numpy as np

datafile = '../data/normalization_data.xls' #参数初始化
data = pd.read_excel(datafile, header = None) #读取数据

(data - data.min())/(data.max() - data.min()) #最小-最大规范化
(data - data.mean())/data.std() #零-均值规范化
data/10**np.ceil(np.log10(data.abs().max())) #小数定标规范化

Rookiekk

关注

10
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
pandas:数据规范化方法与python实现

这里就不说为什么要做数据规范化了，直接讲几种规范化的方法。有许多规范化的方法，我们将学习种：最大-最小规范化、分数规范化、小数定标规范化。这里令是数值属性，具有个观测值。一、原理1.最大-最小规范化假设和分别为属性的最大值和最小值。最小-最大规范化通过计算把A的值映射到区间,中的。最小-最大规范化保持原始数据值之间的联系。如果今后的输入实例落在的原...
复制链接

扫一扫

专栏目录