简单谈谈数据的归一化问题(Python)

开发过程中经常遇到需要把数据归一化处理的情况,简单记录几种归一化方法。

需求1:归一化(将一组数转换到[0~1]区间内)一组数据,数据包含正负数,归一化后的数据列保持其原数据列的大小顺序。

def normalization(data):
    """
    归一化函数
    把所有数据归一化到[0,1]区间内,数据列表中的最大值和最小值分别映射到1和0,所以该方法一定会出现端点值0和1。
    此映射是线性映射,实质上是数据在数轴上等比缩放。
    
    :param data: 数据列表,数据取值范围:全体实数
    :return:
    """
    min_value = min(data)
    max_value = max(data)
    new_list = []
    for i in data:
        new_list.append((i-min_value) / (max_value-min_value))
    return new_list


if __name__ == '__main__':
    d = [-3, 4, 6, -1, -5]
    
    print(normalization(d))
    # [0.18181818181818182, 0.8181818181818182, 1.0, 0.36363636363636365, 0.0]

上述方法满足了需求,需要注意的是,这个方法会使归一化结果中出现端点值(即0和1)


需求2:归一化一组数据(包含正负数),并使得归一化后的数据和为1,保持其原数据的大小顺序。

分析:要使得归一化结果和为1,就需要考虑先求和,后逐个求比值。

def softmax_linear_mapping(data):
    """
    线性映射归一化函数。归一化到[0, 1]区间,且和为1。归一化后的数据列依然保持原数据列中的大小顺序。
    局限性:仅适用于非负数据
    
    :param data: 非负数据列,数据取值范围:非负数
    :return:
    """
    sum_all = sum(data)
    new_list = []
    for i in data:
        new_list.append(i / sum_all)
    return new_list


if __name__ == '__main__':
    d = [3, 4, 6, 1, 5]
    print(softmax_linear_mapping(d))
    # [0.15789473684210525, 0.21052631578947367, 0.3157894736842105, 0.05263157894736842, 0.2631578947368421]
    
    d = [-3, 4, 6, -1, -5]
    print(softmax_linear_mapping(d))
    # [-3.0, 4.0, 6.0, -1.0, -5.0]

但不幸的是,这个方法有先天缺陷:不能处理负数列。

为了解决这个问题,尝试引入一个非线性函数,将数据区间(-∞, +∞)映射到(0, +∞)上,这样就可以愉快的玩耍了。

优化 [社会我白哥,人狠话不多]

import math
def softmax(data):
    """
    非线性映射归一化函数。归一化到[0, 1]区间,且和为1。归一化后的数据列依然保持原数据列中的大小顺序。
    非线性函数使用以e为底的指数函数:math.exp()。
    使用它可以把输入数据的范围区间(-∞, +∞)映射到(0, +∞),这样就可以使得该函数有能力处理负数。
    
    :param data: 数据列,数据的取值范围是全体实数
    :return:
    """
    exp_list = [math.exp(i) for i in data]
    sum_exp = sum(exp_list)
    new_list = []
    for i in exp_list:
        new_list.append(i / sum_exp)
    return new_list


if __name__ == '__main__':

    d = [3, 4, 6, 1, 5]
    print(softmax(d))
    # [0.031920112758713086, 0.0867678624743735, 0.6411326034074455, 0.0043199175011450494, 0.235859503858323]
    d = [-3, 4, 6, -1, -5]
    print(softmax(d))
    # [0.00010859836836988283, 0.11909257170564182, 0.8799816932989085, 0.0008024394361374001, 1.4697190942372094e-05]

~ 完美 ~

Mr.bai

  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值