数据标准化

数据标准化也是归一化的过程。在数据分析之前通常需要先将数据标准化(Normalization),目的是去除奇异样本数据(相对于其他输入样本特别大或特别小的样本矢量),将数据按比例缩放,使之落入一个小的特定区间。或者去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权,而且能保正程序运行时收敛加快。


如上图所示,正态分布中的各类分段方法。包括: Standard deviations, cumulative percentages, percentile equivalents, Z-scores, T-scores, standard nine, percent in stanine.(Standard score)

数据标准化常用方法有“Min-max”、“Z-score”、“Atan”和“Decimal scaling”等。

  • Min-max 标准化(Min-max normalization)

适用于原始数据的取值范围已经确定的情况,缺点是当有新数据加入时,可能导致 Max 和 Min 值变化需要重新定义。设 MinA 和 MaxA 分别为属性 A 的最小值和最大值,将 A 的一个原始值 x 通过 Min-max 标准化映射成在区间【0,1】中的值,公式为:

  • Z-score 标准化(Zero-score normalization)

又名标准差标准化。经过处理的数据符合标准正态分布,均值为 0,标准差为 1。设μ为所有样本数据的均值,σ为所有样本数据的标准差。公式为:

  • Atan 函数转换

使用这个方法需要注意的是如果想映射的区间为[0,1],则数据都应该大于等于 0,小于 0 的数据将被映射到[-1,0]区间上。所以通过 atan 标准化会映射在区间【-1,1】上。

  • 小数定标标准化Decimal scaling

通过移动数据的小数点位置来进行标准化,小数点移动多少位取决于属性 A 的取值中的最大绝对值。这个方法比较容易理解



  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值