读书笔记 -- 004_数据预处理_数据规范化

概述
所用的度量单位可能影响数据分析。例如,把height的度量单位从米制换成英寸,把weight的度量单位从公斤换成磅,可能导致的结果不一样。一般而言,用较小的单位表示属性将导致该属性具有较大的值域,因此趋向于使这样的属性具有较大的影响或较高的“权重”。为了帮助避免对度量单位选择的依赖性,数据应该规范化或标准化。这涉及到变换数据,使之落入较小的共同区间,如[-1, 1]或[0.0, 1.0]。

规范化数据试图赋予所有的属性相等的权重。对于涉及神经网络的分类算法或基于距离度量的分类(如最近邻分类)和聚类,规范化特别有用。

经常使用的数据规范化的方法有:最小-最大规范化、z分数规范化和按小数定规范化。

1、最小-最大规范化
对原始数据进行线性变换。假设max_A 和 min_A分别为属性A的最小值和最大值。那么规范化通过公式:
这里写图片描述
注意:最小-最大规范化保持原始数据值之间的联系。如果今后的输入数据落在A的原始数据值域之外,则该方法将面临“越界”错误。

2、z分数规范化(或零均值规范化)
这里写图片描述
其中,分子的第二个字母表示A的均值,分母是A的标准差。
注意:当属性A的实际最小值和最大值未知,或离群点左右了最小

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值