每日一学 Scale和Normalization

最新推荐文章于 2024-06-29 11:47:42 发布

阿尔卑斯山脉的小菇凉

最新推荐文章于 2024-06-29 11:47:42 发布

阅读量3.4k

点赞数 1

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38313518/article/details/79947234

版权

本文介绍了数据预处理中的Scale（缩放）和Normalization（正则化）概念，包括它们的含义、作用以及代码实现。通过Scale可以将数据转换到特定范围内，例如（0, 1），而Normalization则使数据服从正态分布，常用于机器学习的假设前提。文中提到了minmax_scaling与minmax_scale的区别，并讨论了它们在sklearn与mlxtend库中的应用。此外，还讲解了Box-Cox变换，用于处理非正态分布的响应变量。" 136521981,11319821,Java面试：深入解析JVM关键面试题,"['Java', '面试', 'JVM']

摘要由CSDN通过智能技术生成

kaggle上的数据清洗教程第二天---Scale和Normalization

(不知道如何翻译会比较好，参考了其他博客，scale为缩放，normalization 为正则化)

1.Scale

1.1 粗略理解

将数据转为为特定范围的数据，比如（0，1）或者（0，100）

1.2 例子

a.对于SVM和KNN方法，由于涉及数据点之间的距离度量，则需要对数据进行scale，使得任何特征中的“1”的变化具有相同重要性。比如，1美元和1日元，如果没有scale，SVM和KNN会把1美元和1日元视为同等重要的

1.3 采用min-max标准化的code

import numpy as np

from mlxtend.preprocessing import minmax_scaling#区别与sklearn.preprocessing中的minmax_scale

import seaborn as sns

import matplotlib as plt

np.random.seed(0)#保证几次用到随机产生数据的随机相同

ori_data = np.random.exponential(size=100)#产生一个数据点数量为100的指数分布

scaled_data = minmax_scaling(ori_data,columns)#对数据第0列进行scale&

最低0.47元/天解锁文章

阿尔卑斯山脉的小菇凉

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。