归一化和标准化以及欧氏距离

最新推荐文章于 2024-07-04 20:26:48 发布

董十贝

最新推荐文章于 2024-07-04 20:26:48 发布

阅读量1w

点赞数 3

分类专栏：概率论与数理统计

原文链接：http://dengxinbo.cn/2019/01/07/%E5%BD%92%E4%B8%80%E5%8C%96%E5%92%8C%E6%A0%87%E5%87%86%E5%8C%96%E4%BB%A5%E5%8F%8A%E6%AC%A7%E6%B0%8F%E8%B7%9D%E7%A6%BB/

版权

概率论与数理统计专栏收录该内容

3 篇文章 0 订阅

订阅专栏

当前项目中需要对所有图表计算它们之间的相似性，我们通过计算两两图表间的欧式距离来衡量其相似性。然而直接使用图表的原始数据进行计算会导致即使图表相似性极高但因为数据范围差别过大而失败，这里我们考虑对原始数据进行处理，将所有数据映射到某一个固定区间之内再计算。

这里就用到了特征缩放（Feature scaling），特征缩放（Feature Scaling）是将不同特征的值量化到同一区间的方法，也是预处理中容易忽视的关键步骤之一。这里，就要了解一些具体的方法：标准化（Standardization）和归一化（Normalization）。

以下内容如有误漏敬请指正。

1.归一化(Normalization)

概念：

将数据映射到[0,1]或[-1,1]区间内，不会改变数据的特征，将有量纲的表达式转换成无量纲的表达式，即标量。

常用方法：

min-max normalization：

min(x)：样本最小值,max(x)：样本最大值，但是最大最小值容易受到异常点的影响，健壮性比较差，使用于传统的精确小数据。

Mean normalization：

average(x)：样本均值。

2.标准化(Standardization)：

概念：

将数据标准化处理之后，均值变为0，方差变为1，即服从标准正态分布。

常用方法：

z-score标准化：

σ：样本标准差。

3.如何选择以上两种方法

如果对输出结果范围有要求，用归一化。
如果数据较为稳定，不存在极端的最大最小值，用归一化。
如果数据存在异常值和较多噪音，用标准化，可以间接通过中心化避免异常值和极端值的影响。

关注

3
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
归一化和标准化以及欧氏距离

当前项目中需要对所有图表计算它们之间的相似性，我们通过计算两两图表间的欧式距离来衡量其相似性。然而直接使用图表的原始数据进行计算会导致即使图表相似性极高但因为数据范围差别过大而失败，这里我们考虑对原始数据进行处理，将所有数据映射到某一个固定区间之内再计算。这里就用到了特征缩放（Feature scaling），特征缩放（Feature Scaling）是将不同特征的值量化到...
复制链接

扫一扫

专栏目录

董十贝 CSDN认证博客专家 CSDN认证企业博客

码龄8年

24: 原创

22万+: 周排名

132万+: 总排名

41万+: 访问

: 等级

2974: 积分

134: 粉丝

366: 获赞

24: 评论

1563: 收藏

私信

关注

热门文章

分类专栏

最新评论

【十五】傅里叶变换，拉斯变换，z变换的关系
Daydream_realize: 如果令a = e^{sigma}，则 a^{-n} = e^{-\sigma n}。不是一样的么？为什么后面还有“关于这里为什么对x[n]乘以 a^{-n} 而不是像拉氏变换中乘以 e^{-\sigma n}”这一论述？没太看懂
10.Python——max()的用法
ambition0727: 这个key和lamabda有点没看懂
【五】离散傅里叶变换——1
weixin_50703481: 振动三个周期和四个周期的图好像错了喔
【七】CentOS 7.6 中安装JavaJDK和配置环境变量
qq_34373873: classpath 要配置lib路径下的dt.jar和tools.jar，jdk1.8都是这么配置的，今天配置了jdk11，突然发现lib路径下，没有这两个jar'包
互补松弛性质
逍遥我本人: 我去找了原文，这里p2*的值写错了，3.3不是0.33，否则约束条件D满足不了。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。