python 标准化使数组和为1_基于数据归一化以及Python实现方式

最新推荐文章于 2022-09-20 19:08:41 发布

weixin_39526741

最新推荐文章于 2022-09-20 19:08:41 发布

阅读量2.4k

点赞数

文章标签： python 标准化使数组和为1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39526741/article/details/114914606

版权

数据归一化是为了消除单位限制，将数据缩放到特定区间，加速梯度下降并可能提高精度。本文介绍了线性归一化、标准差标准化和非线性归一化（如log函数）的Python实现，适用于不同数据分布场景。

摘要由CSDN通过智能技术生成

数据归一化：

数据的标准化是将数据按比例缩放，使之落入一个小的特定区间，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。

为什么要做归一化：

1)加快梯度下降求最优解的速度

如果两个特征的区间相差非常大，其所形成的等高线非常尖，很有可能走“之字型”路线(垂直等高线走)，从而导致需要迭代很多次才能收敛。

2)有可能提高精度

一些分类器需要计算样本之间的距离，如果一个特征值域范围非常大，那么距离计算就主要取决于这个特征，从而与实际情况相悖(比如这时实际情况是值域范围小的特征更重要)。

归一化类型

1)线性归一化

这种归一化比较适用在数值比较集中的情况，缺陷就是如果max和min不稳定，很容易使得归一化结果不稳定，使得后续的效果不稳定，实际使用中可以用经验常量来代替max和min。

2)标准差标准化

经过处理的数据符合标准正态分布，即均值为0，标准差为1。

3)非线性归一化

经常用在数据分化较大的场景，有些数值大，有些很小。通过一些数学函数，将原始值进行映射。该方法包括log、指数、反正切等。需要根据数据分布的情况，决定非线性函数的曲线。

log函数：x = lg(x)/lg(max)

反正切函数：x = atan(x)*2/pi

Python实现

线性归一化

定义数组：x = numpy.array(x)

获取二维数组列方向的最大值：x.max

最低0.47元/天解锁文章

weixin_39526741

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。