聚类中的距离

最新推荐文章于 2023-12-31 01:46:50 发布

candysjf

最新推荐文章于 2023-12-31 01:46:50 发布

阅读量182

点赞数

因学习mahout重新学习与理解聚类中的距离的设定。

由于一般把文档等数据抽象成为向量来表示。直观的，用矩阵以及线性空间中的相关知识来理解距离。由于线性空间、度量空间的一些特性。我们可以把一个新的数据集，利用我们容易理解的，已知的空间特性，来类比和学习。

常用距离以及对应的范数

距离	范数	范数
曼哈顿距离（绝对值之和）	1范数	范数
欧氏距离（几何距离）	2范数	范数
欧氏距离（几何距离）	2范数	范数
欧氏距离（几何距离）	2范数	范数

一些基本知识：

如果线性空间上定义了范数，则称之为赋范线性空间。利用范数可以诱导出度量：d(x,y)=║x-y║，进而诱导出拓扑，因此赋范线性空间是度量空间。

在理解一些其它的定义时，就可以用线性空间来更加理论化的理解了。

最常用的范数就是p-范数。若x=[x1,x2,...,xn]^T，那么

　　║x║p=(|x1|^p+|x2|^p+...+|xn|^p)^{1/p}　

　可以验证p-范数确实满足范数的定义。

其中三角不等式的证明不是平凡的，这个结论通常称为闵可夫斯基(Minkowski)不等式。　

　当p取1，2，∞的时候分别是以下几种最简单的情形：

　　1-范数：║x║1=│x1│+│x2│+…+│xn│

　　2-范数：║x║2=(│x1│^2+│x2│^2+…+│xn│^2)^1/2 　

　∞-范数：║x║∞=max(│x1│,│x2│,…,│xn│)

范数与距离之间的关系。

“范数||.||一定可以诱导出距离: d(x-y)=||x-y||（该距离甚至是平移不变的），但是反过来距离未必可以由范数来诱导。”

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

candysjf

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

MATLAB中聚类分类算法中距离计算方法

06-28

MATLAB中各种聚类分类算法中设计到的距离计算方法

聚类分析之距离计算(二)

遥望......

09-22

1万+

聚类分析中如何度量两个对象之间的相似性呢？一般有两种方法，一种是对所有对象作特征投影，另一种则是距离计算。前者主要从直观的图像上反应对象之间的相似度关系，而后者则是通过衡量对象之间的差异度来反应对象之间的相似度关系。如图（1）所示：假设X坐标轴为时间，

参与评论您还未登录，请先登录后发表或查看评论

聚类 -距离度量方法与模型评估方法（一）

weixin_50304531的博客

08-08

2940

文章目录1 聚类的基本数据结构1.1 数据矩阵（Data matrix，或称对象-属性结构）1.2 相异度矩阵（dissimilarity matrix 或称对象-对象结构）2 不同数据类型的相异度计算方法2.1 区间标度变量2.1.1 距离法2.1.1.1 欧几里得距离2.1.1.2 标准化的欧几里得距离2.1.1.3 切比雪夫距离2.1.1.4 曼哈顿距离2.1.1.5 兰氏距离2.1.1.6 闵科夫斯基距离（明氏距离）2.1.1.7 马氏距离2.1.2 相似性系数2.1.2.1 夹角余弦2.1.2.2

距离度量：聚类算法与应用

AI天才研究院

12-31

1205

1.背景介绍 聚类分析是一种常用的数据挖掘和机器学习技术，它通过对数据点进行分组，将相似的数据点聚集在一起，从而发现数据中的模式和结构。聚类分析的主要目标是将数据点划分为若干个不相交的子集，使得子集内的数据点相似度高，子集间的数据点相似度低。聚类分析的一个重要组成部分是距离度量，它用于衡量数据点之间的相似性。距离度量是一种数学方法，用于衡量两个数据点之间的距离。在聚类分析中，距离度量被用于计...

基于改进Hausdorff距离的轨迹聚类算法

02-24

给出一种新的轨迹子段距离度量方法,用以消除轨迹子段之间的公共偏差。利用特征点概念将轨迹划分成轨迹子段集,计算轨迹子段之间的相似度,由此实现聚类。实验结果表明,该算法相比同类算法具有更好的轨迹聚类效果。

聚类分析

01-07

聚类分析一、聚类的关键：距离二、K-means聚类算法三、聚类的注意事项聚类好坏的评估方法1、技术上的方法2、业务上的方法连续型数据标准化分类型数据标准化一、聚类的关键：距离二、K-means聚类算法三、聚类的...

nenmen.zip_二维距离_矩阵聚类_聚类树_距离矩阵聚类

07-13

在这个上下文中，可能是指通过计算矩阵中的元素（即数据点）之间的距离来形成聚类。MATLAB文件可能包含了计算这些距离的方法，并基于这些信息进行聚类。 3. **快速扩展随机生成树算法**：这可能指的是在聚类过程...

计算机研究 -层次聚类中类间距离新定义.pdf

06-24

《计算机研究 -层次聚类中类间距离新定义》这篇论文深入探讨了层次聚类算法中的类间距离定义，这是数据分析领域的一个重要课题。随着大数据时代的到来，如何从海量信息中提取有价值的知识变得愈发关键。数据挖掘技术...

机器学习--聚类系列--层次聚类

weixin_34319817的博客

07-21

388

层次聚类　　层次聚类(Hierarchical Clustering)是聚类算法的一种，通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树。在聚类树中，不同类别的原始数据点是树的最低层，树的顶层是一个聚类的根节点。创建聚类树有自下而上合并和自上而下分裂两种方法。　　作为一家公司的人力资源部经理，你可以把所有的雇员组织成较大的簇，如主管、经理和职员；然后你可以进一步划分为较小的簇，...

为什么说K-Means是基于距离的聚类算法？

中科院计算所培训中心

03-12

7558

K-means算法是很典型的基于距离的聚类算法，采用距离作为相似性的评价指标，两个对象的距离越近，其相似度就越大。K-means算法认为簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。k-means聚类，需要用户设定一个聚类个数k作为输入数据。k个初始类聚类中心点的选取，对聚类结果具有较大的。为了用k-means达到高质量的聚类，需要估计k值。可根据需要的聚类个数，估计k值。比如...

聚类一之距离聚类

zhao_crystal的博客

10-16

8150

1. 聚类的定义聚类就是对大量未知标注的数据集，按数据的内在相似性将数据集划分为多个类别，使类别内的数据相似度较大而类别间的数据相似度较小。 2. 聚类的应用 2.1 降维对于M篇文章，D1， D2， D3 …… Dm，假设已做好分词。根据这M篇文章，得到一个词典word_dict = {W1, W2, W3, W4……Wv},假设共有v个词。方式1: 0，1 矩阵（0代表没有出现过，1代表出现过）若D1中出现过W1，则将相应位置置为1，否则置为0。其它同理。——>m纬..

聚类算法中的距离度量有哪些

weixin_30468137的博客

07-27

4333

一、你知道聚类中度量距离的方法有哪些吗？　1）欧式距离　欧氏距离是最易于理解的一种距离计算方法，源自欧氏空间中两点间的距离公式。即两点之间直线距离，公式比较简单就不写了　应用场景：适用于求解两点之间直线的距离，适用于各个向量标准统一的情况　2）曼哈顿距离(Manhattan Distance) 　从名字就可以猜出这种距离的计算方法了。想象你在曼哈顿要从一个十字路口开车到另外...

范数

Ramble Over The Cloud~

04-23

4830

设X是数域K上线性空间，称║˙║为X上的范数(norm)。范数的定义　　若X是数域K上的线性空间，泛函 ║·║: X->R 满足：　　1. 正定性：║x║≥0，且║x║=0 x=0；　　2. 正齐次性：║cx║=│c│║x║；　　3. 次可加性(三角不等式)：║x+y║≤║x║+║y║ 。　　那么║·║称

告别欧氏距离：聚类中的距离学习方法