【Python那些事儿】数据放缩

讨论如何对数据进行放缩:

  • 放缩是一种非常重要的数据转换手段;
  • 对数据进行放缩之后,能够控制数值的范围
  • 数据集里有很多列的时候,数据较大的列对于其他列更有优势,必须对数据进行放缩以避免这种干扰

操作方法

缩放到[0, 1]区间

import numpy as np
np.random.seed(10)
x = [np.random.randomint(10, 25)*1.0 for i in range(10)]

def min_max(x):
    return [round(round((xx - min(x))/(1.0*(max(x) - min(x))), 2) for xx in x]

print(x)
print(min_max(x))


----------
输出:
[19.0, 23.0, 14.0, 10.0, 11.0, 21.0, 22.0, 19.0, 23.0, 10.0]
[0.69, 1.0, 0.31, 0.0, 0.08, 0.85, 0.92, 0.69, 1.0, 0.0]

这样就把原始数值分布缩放到[0, 1]区间内。10原来是最小的数,缩放后为0.0;23是原来最大的数,缩放后是1.0。

缩放到任意范围

假如定义新的区间范围为nr_minnr_max,那min_max的公式得做如下修改:

x_scaled = (x - min(x)) / (max(x) - min(x)) * (nr_max - nr_min) + nr_min

Python实例代码:

import numpy as np

np.random.seed(10)
x = [np.random.randint(10, 25)*1.0 for i in range(10)]

#定义函数
def min_max_range(x, range_values):
    return [round( ((xx - min(x)) / (1.0*(max(x) - min(x)))) * (range_values[1] - range_values[0]) + range_values[0], 2) for xx in x]

if __name__ == '__main__':
    print(x)
    print(min_max_range(x, (100, 200)))

----------
输出:
[19.0, 23.0, 14.0, 10.0, 11.0, 21.0, 22.0, 19.0, 23.0, 10.0]
[169.23, 200.0, 130.77, 100.0, 107.69, 184.62, 192.31, 169.23, 200.0, 100.0]

将数值缩放到[100, 200],最小值10和最大值23缩放到100和200。

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值