数据挖掘学习笔记：数值属性的邻近性度量

最新推荐文章于 2024-03-23 19:54:51 发布

code_carrot

最新推荐文章于 2024-03-23 19:54:51 发布

阅读量1.9k

点赞数

分类专栏：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37209590/article/details/105332615

版权

数据挖掘专栏收录该内容

24 篇文章 13 订阅

订阅专栏

目录

数据标准化

数值属性的相异性侧度

闵可夫斯基距离特殊形式

数据标准化

数值属性相异性计算之前，一般先进行数据标准化处理。数值属性的数据为连续型数据，且对于不同的数值属性，其数值的范围可能相差较大，有的区间长度很小，有的区间长度却很大，这时应对数值属性做规范化处理（按比例放缩），使得所有的数值属性都在某一个相同的区间内，这使得每一个数值属性都具有相同的权重。通常，数值属性规范化到区间[-1,1]或[0,1]。

处理方法有多种，各有利弊，下面介绍的是Z-score标准化
Z-score： $z=\frac{x-\mu }{\sigma }$

x：需标准化的原始数值，μ：总体均值，σ：标准差

z亦表示在标准偏差单位下，原始分数和总体均值之间的距离，标准化后的变量值围绕0上下波动，大于0说明高于平均水平，小于0说明低于平均水平。

※若是逆指标，需要将逆指标前的正负号对调。(逆指标：也称反指标,它是指在一定的条件下,指标的数值越小越好的指标。例如,单位运输成本指标。)

经过处理的数据符合标准正态分布，即均值为0，标准差为1，注意，一般来说z-score不是归一化，而是标准化，归一化只是标准化的一种。

z-score标准化方法适用于属性A的最大值和最小值未知的情况，或有超出取值范围的离群数据的情况。该种标准化方式要求原始数据的分布可以近似为高斯分布，否则效果会变得很糟糕。

还有一个常用的方法：min-max标准化，是对原始数据的线性变换，使结果落到[0,1]区间

$x^{*}=\frac{x-min}{max-min}$

其中max为样本数据的最大值，min为样本数据的最小值。

数值属性的相异性侧度

闵可夫斯基距离（曼哈顿距离、欧几里得距离、上确界距离）

闵可夫斯基距离特殊形式

计算例子

上图的上确界距离中，以x1，x2为例，|x1_attribute1 - x2_attribute1|=2，|x1_attribute2 - x2_attribute2|=3，所以x1、x2的上确界距离为max(2,3)=3

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。