【聚类1】距离计算

姜满月

已于 2022-04-23 13:27:00 修改

阅读量2.2k

点赞数 4

分类专栏： trush 文章标签：机器学习聚类

于 2022-04-17 19:42:14 首次发布

本文链接：https://blog.csdn.net/qq_51184516/article/details/124132531

版权

文章目录

1. 无监督学习
2. 聚类
3. 聚类任务
4. 性能度量
- 4.3 外部指标公式
- 4.4 内部指标公式
5. 距离计算

1. 无监督学习

1.1 无监督学习简介

- "英文："
		Unsupervised Learning

- "概念："
		根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题，称之为"无监督学习"。

- "性质："
		1）在"无监督学习"中，训练样本的标记信息是"未知"的。
		2）或，训练样本没有标签。

- "分类："
		1）确定型无监督学习
				代表：自编码、稀疏自编码、降噪自编码
		2）概率型无监督学习
				代表：限制玻尔兹曼机

- "用途："
		希望通过"对无标记训练样本的学习"来揭示数据的内在性质及规律，为进一步的数据分析提供基础。

- "联系实际："
		1）缺乏足够的先验知识，因此难以人工标注类别。
		2）进行人工类别标注的成本太高。
		我们希望，计算机：
		1）从庞大的样本集合中选出一些具有代表性的加以标注用于"分类器"的训练。
		2）先将所有样本自动分为不同的类别，再由"人类"对这些类别进行"标注"。
		3）在无类别信息情况下，寻找"好的特征"。

- "典型例子："
		聚类

1.2 浅谈无监督与监督

1. "监督学习"
- 白话描述：我给计算机猫和狗的图片，然后告诉计算机哪个是猫，哪个是狗。计算机带着"打好的标签"去学习。
- 代表算法：决策树，朴素贝叶斯，SVM，k-临近算法

2. "无监督学习"
- 白话描述：我给计算机猫和狗的图片，但是不告诉计算机哪个是猫，哪个是狗。计算机带着"无标签"样本，自己从数据间不同特征，去学习。
- 代表算法：K-Means, EM

3. "半监督学习"
- 白话描述：我给计算机猫和狗的图片，然后有的图片告诉计算机哪个是猫，哪个是狗，有的却不告诉。（对应现实中，数据标签丢失）。

4. "强化学习"
- 又叫"人工智能的机器学习"。计算机（智能体），循环（累积），让奖励最大（预期累积奖励最大化）。
- 例子：AlphagGo

5. "深度学习"
- 通过神经网络来实现的，它以人工神经网络为架构，可以做自然语言处理、计算机视觉等。
- 代表算法：卷积神经网络（CNN）,多层感知机（MLP）

2. 聚类

2.1 聚类算法的主要方法

- "主要方法："
		划分方法、层次方法

2.2 划分方法（划分聚类算法）

- "思想："
		"划分聚类算法"通过优化评价函数把数据集分割为K个部分，它需要K作为输入参数。

- "典型的分割聚类算法："
		1）K-means算法
		2）K-medoids算法
		3）CLARANS算法

2.3 层次方法（分层聚类算法）

- "思想："
		层次聚类由不同层次的分割聚类组成，层次之间的分割具有嵌套的关系。

- "典型的分层聚类算法："
		1）BIRCH算法
		2）DBSCAN算法
		3）CURE算法

3. 聚类任务

3.1 文字描述

- "描述："
		1）"聚类"试图将数据集中的样本划分为若干个"不相交"的子集。
		2）每个子集称为一个"簇" (cluster)（样本簇亦称为"类"）。
		3）每个簇可能对应于一些"潜在的概念(类别)"。
- "例如："
		对于上面的样本簇，"人为"的可以命名。如"浅色瓜" "深色瓜"等。

- "拓展："
		1）"聚类"虽属于"无监督学习"，但聚类任务中也可使用"有标记"训练样本（半监督）。
		2）但样本的类标记与聚类产生的簇有所不同。

3.2 数学描述

$已知：$
$假定样本集D = \{x_1, x_2, ..., x_m \}, m个样本$

$每个样本x_i = (x_{i1}, x_{i2}, ..., x_{in}), n个特征（n维特征向量）$

$聚类算法：$
$聚类算法将D划分为k个不相交的簇\{C_l | l = 1, 2, ..., k\}$

$\ \ \ \ \ \ \ \ \ \ 数学表达为：C_{i}\bigcap C_{i+1} = \emptyset且D = \bigcup_{l=1}^kC_l$

$结果：$
$\ \ \ \ \ \ \ \ \ \ 用\lambda_j = \{1, 2, ..., k\}表示样本x_j的簇标记，x_j\in C_{\lambda_j}$

$聚类的结果:可用包含m个元素的簇标记向量 λ=(λ_1;λ_2;... ;λ_m) 表示。$

3.3 实际用途

聚类在实际中的十大示例

- 聚类既能作为一个"单独过程"，用于找寻数据内在的分布结构，
- 也可作为分类等其他学习任务的"前驱过程".

3.4 拓展

- 除了"聚类任务"，还有
	1）密度估计（density estimation）
	2）异常检测（anomaly detection）

4. 性能度量

4.1 介绍

- "别名/英文："
		有效性指标（validity index）

- "作用："
		1）评估聚类结果的好坏。
		2）当明确了性能度量，可直接将其作为聚类过程的优化目标。

- "聚类性能评估的指标："
		同一簇的样本尽可能彼此相似 不同簇的样本尽可能不同。即：
		1）"簇内相似度（intra-cluster similarity）" 要高
		2）"簇间相似度（inter-cluster similarity）" 要低

4.2 聚类性能度量

- "外部指标（external index）："
		将聚类结果与某个"参考模型" (reference model) 进行比较。

- "内部指标（inrernal index）："
		直接考察聚类结果而不利用任何参考模型。

4.3 外部指标公式

$已知：$
$数据集D = \{x_1, x_2, ..., x_m\}$
$簇划分C = \{C_1, C_2, ..., C_k\}$
$参考模型的簇划分C^* = \{C^*_1, ..., C^*_s\}$
$\ \ \ \ \ \ \ \ \ \ 令\lambda表示C对应的簇标记向量$
$\ \ \ \ \ \ \ \ \ \ 令\lambda^*表示C^*对应的簇标记向量$

$定义：$
$a = |SS|, SS = \{(x_i, x_j) | λ_i=λ_j,λ^*_i=λ^*_j,i<j\}$

$\ \ \ \ \ \ \ \ \ \ b = |SD|, SD = \{(x_i, x_j) | λ_i=λ_j,λ^*_i\neqλ^*_j,i<j\}$

$\ \ \ \ \ \ \ \ \ \ c = |DS|, DS = \{(x_i, x_j) | λ_i\neqλ_j,λ^*_i=λ^*_j,i<j\}$

$\ \ \ \ \ \ \ \ \ \ d = |DD|, DD = \{(x_i, x_j) | λ_i\neqλ_j,λ^*_i\neqλ^*_j,i<j\}$

$解释 1 ：$
$\ \ \ \ \ \ \ \ \ \ 样本两两配对,每个样本对仅能出现在一个集合中$

$解释 2 ：$
$SS:样本对，在C和C^*中都隶属于相同簇$

$SD:样本对，在C中隶属于相同簇，但在C^*中隶属于不同簇$

$DS:样本对，在C中隶属于不同簇，但在C^*中隶属于相同簇$

$DD:样本对，在C和C^*中都隶属于不同簇$

$结论：$
$\ \ \ \ \ \ \ \ \ \ Jaccard系数：JC = \frac{a}{a+b+c}$

$\ \ \ \ \ \ \ \ \ \ FM指数：FMI =\sqrt{\frac{a}{a+b} *\frac{a}{a+c}}$

$\ \ \ \ \ \ \ \ \ \ Rand指数：RI = \frac{2(a+d)}{m(m-1)}$

$（三个都是 [0, 1] ，值越大，性能度量越大，越好）$

4.4 内部指标公式

$已知：$
$聚类结果的簇划分C = \{C_1,...,C_k\}$

$定义：$
$\ \ \ \ \ \ \ \ \ \ avg(C)=\frac{2}{|C|(|C|-1)}\sum_{1\leq i<j\leq |C|}dist(x_i,x_j)$

最低0.47元/天解锁文章

姜满月

关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
1
评论
【聚类1】距离计算

文章目录1. 无监督学习2. 聚类任务3. 性能度量1. 无监督学习英文unsupervised learning概念- 在"无监督学习"中，训练样本的标记信息是未知的。- 根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题，称之为"无监督学习"。目标- 希望是通过"对无标记训练样本的学习"来揭示数据的内在性质及规律，为进一步的数据分析提供基础。- "现实生活"中常常会有这样的情况：1. 缺乏足够的先验知识，"难"以人工标注类别或进行人工类别标注的成本太高。
复制链接

扫一扫