数据归一化

原创 2016年05月31日 00:39:12

数据归一化,又叫数据规范化或数据标准化,即把属性数据按比例缩放,使之落入一个特定的小区间,如[-1.0, 1.0]或[0.0, 1.0]。

规范化数据试图赋予所有属性相等的权重。对于涉及神经网络的分类算法或基于距离度量的分类(如最近邻分类)和聚类,规范化特别有用。如果使用神经网络后向传播算法进行分类挖掘,对训练元组中每个属性的输入值规范化有助于加快学习速度。对于基于距离的方法,规范化可以帮助防止具有较大初始值域的属性(如income)与具有较小初始值域的属性(如二元属性)相比权重过大。在没有数据的先验知识时,规范化也是有用的。

常用的数据规范化方法有以下几种:

1. 最小-最大值归一化

    

     一般情况下new_maxA取1,new_minA取0,此时公式1.1可简化为:

    

2. z-score归一化

    

   

     2.1式的标准差可以用均值绝对偏差替换。A的均值绝对偏差(mean absolute deviation)定义为:

     使用均值绝对偏差的z-score归一化为:

    

     对于离群点,均值绝对偏差比标准差更加鲁棒。


3. 小数定标归一化

    小数定标归一化通过移动属性A的值的小数点位置进行归一化。小数点的移动位数依赖于A的最大绝对值。


  

4. 对数归一化

 

5. 反正切函数转换

 

版权声明:本文为博主原创文章,未经博主允许不得转载。

【机器学习笔记】1.数据归一化

在机器学习入门的过程中,我们经常见到在导入数据时,常常出现的一步操作叫做数据归一化(normalization),一开始我并不知道它的作用,甚至发现有些时候去掉数据归一化的步骤,代码一样可以运行,机器...

数据归一化matlab代码

  • 2011年12月07日 11:22
  • 218B
  • 下载

特征归一化的kdd99数据集

  • 2017年11月26日 16:09
  • 66.32MB
  • 下载

one hot 编码及数据归一化

机器学习 数据预处理之独热编码(One-Hot Encoding) 问题由来 在很多机器学习任务中,特征并不总是连续值,而有可能是分类值。 例如,考虑一下的三个特征: ...

两个常用的数据标准化(归一化)及Matlab实现

转载自:数据归一化和两种常用的归一化方法,博主对原文进行了润色并添加了Matlab实现。 数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到...

KDD99数据集的归一化

  • 2017年09月04日 10:03
  • 17KB
  • 下载

数据归一化程序

  • 2016年06月09日 19:41
  • 1001B
  • 下载

数据标准化/归一化normalization

这里主要讲连续型特征归一化的常用方法。离散参考[数据预处理:独热编码(One-Hot Encoding)]。 基础知识参考: [均值、方差与协方差矩阵 ] [矩阵论:向量范数和矩...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:数据归一化
举报原因:
原因补充:

(最多只允许输入30个字)