【聚类1】距离计算

1. 无监督学习

  • 1.1 无监督学习简介
- "英文:"
		Unsupervised Learning

- "概念:"
		根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,称之为"无监督学习"- "性质:"
		1)在"无监督学习"中,训练样本的标记信息是"未知"的。
		2)或,训练样本没有标签。

- "分类:"
		1)确定型无监督学习
				代表:自编码、稀疏自编码、降噪自编码
		2)概率型无监督学习
				代表:限制玻尔兹曼机

- "用途:"
		希望通过"对无标记训练样本的学习"来揭示数据的内在性质及规律,为进一步的数据分析提供基础。

- "联系实际:"
		1)缺乏足够的先验知识,因此难以人工标注类别。
		2)进行人工类别标注的成本太高。
		我们希望,计算机:
		1)从庞大的样本集合中选出一些具有代表性的加以标注用于"分类器"的训练。
		2)先将所有样本自动分为不同的类别,再由"人类"对这些类别进行"标注"3)在无类别信息情况下,寻找"好的特征"- "典型例子:"
		聚类
  • 1.2 浅谈无监督与监督
1. "监督学习"
- 白话描述:我给计算机猫和狗的图片,然后告诉计算机哪个是猫,哪个是狗。计算机带着"打好的标签"去学习。
- 代表算法:决策树,朴素贝叶斯,SVM,k-临近算法

2. "无监督学习"
- 白话描述:我给计算机猫和狗的图片,但是不告诉计算机哪个是猫,哪个是狗。计算机带着"无标签"样本,自己从数据间不同特征,去学习。
- 代表算法:K-Means, EM

3. "半监督学习"
- 白话描述:我给计算机猫和狗的图片,然后有的图片告诉计算机哪个是猫,哪个是狗,有的却不告诉。(对应现实中,数据标签丢失)。

4. "强化学习"
- 又叫"人工智能的机器学习"。计算机(智能体),循环(累积),让奖励最大(预期累积奖励最大化)。
- 例子:AlphagGo

5. "深度学习"
- 通过神经网络来实现的,它以人工神经网络为架构,可以做自然语言处理、计算机视觉等。
- 代表算法:卷积神经网络(CNN),多层感知机(MLP)

2. 聚类

  • 2.1 聚类算法的主要方法
- "主要方法:"
		划分方法、层次方法
  • 2.2 划分方法(划分聚类算法)
- "思想:"
		"划分聚类算法"通过优化评价函数把数据集分割为K个部分,它需要K作为输入参数。

- "典型的分割聚类算法:"
		1)K-means算法
		2)K-medoids算法
		3)CLARANS算法
  • 2.3 层次方法(分层聚类算法)
- "思想:"
		层次聚类由不同层次的分割聚类组成,层次之间的分割具有嵌套的关系。

- "典型的分层聚类算法:"
		1)BIRCH算法
		2)DBSCAN算法
		3)CURE算法

3. 聚类任务

  • 3.1 文字描述
- "描述:"
		1"聚类"试图将数据集中的样本划分为若干个"不相交"的子集。
		2)每个子集称为一个"簇" (cluster)(样本簇亦称为"类")。
		3)每个簇可能对应于一些"潜在的概念(类别)"- "例如:"
		对于上面的样本簇,"人为"的可以命名。如"浅色瓜" "深色瓜"等。

- "拓展:"
		1"聚类"虽属于"无监督学习",但聚类任务中也可使用"有标记"训练样本(半监督)。
		2)但样本的类标记与聚类产生的簇有所不同。
  • 3.2 数学描述

已 知 : 已知:
           假 定 样 本 集 D = { x 1 , x 2 , . . . , x m } , m 个 样 本 \ \ \ \ \ \ \ \ \ \ 假定样本集D = \{x_1, x_2, ..., x_m \}, m个样本           D={ x1,x2,...,xm},m

           每 个 样 本 x i = ( x i 1 , x i 2 , . . . , x i n ) , n 个 特 征 ( n 维 特 征 向 量 ) \ \ \ \ \ \ \ \ \ \ 每个样本x_i = (x_{i1}, x_{i2}, ..., x_{in}), n个特征(n维特征向量)           xi=(xi1,xi2,...,xin),nn

聚 类 算 法 : 聚类算法:
           聚 类 算 法 将 D 划 分 为 k 个 不 相 交 的 簇 { C l ∣ l = 1 , 2 , . . . , k } \ \ \ \ \ \ \ \ \ \ 聚类算法将D划分为k个不相交的簇\{C_l | l = 1, 2, ..., k\}           Dk{ Cll=1,2,...,k}

           数 学 表 达 为 : C i ⋂ C i + 1 = ∅ 且 D = ⋃ l = 1 k C l \ \ \ \ \ \ \ \ \ \ 数学表达为:C_{i}\bigcap C_{i+1} = \emptyset且D = \bigcup_{l=1}^kC_l           CiCi+1=D=l=1kCl

结 果 : 结果:
           用 λ j = { 1 , 2 , . . . , k } 表 示 样 本 x j 的 簇 标 记 , x j ∈ C λ j \ \ \ \ \ \ \ \ \ \ 用\lambda_j = \{1, 2, ..., k\}表示样本x_j的簇标记,x_j\in C_{\lambda_j}           λj={ 1,2,...,k}xjxjCλj

           聚 类 的 结 果 : 可 用 包 含 m 个 元 素 的 簇 标 记 向 量 λ = ( λ 1 ; λ 2 ; . . . ; λ m ) 表 示 。 \ \ \ \ \ \ \ \ \ \ 聚类的结果:可用包含m个元素的簇标记向量 λ=(λ_1;λ_2;... ;λ_m) 表示。           :mλ=(λ1;λ2;...;λm)

  • 3.3 实际用途

聚类在实际中的十大示例

- 聚类既能作为一个"单独过程",用于找寻数据内在的分布结构,
- 也可作为分类等其他学习任务的"前驱过程".
  • 3.4 拓展
- 除了"聚类任务",还有
	1)密度估计(density estimation)
	2)异常检测(anomaly detection)

4. 性能度量

  • 4.1 介绍
- "别名/英文:"
		有效性指标(validity index)

- "作用:"
		1)评估聚类结果的好坏。
		2)当明确了性能度量,可直接将其作为聚类过程的优化目标。

- "聚类性能评估的指标:"
		同一簇的样本尽可能彼此相似 不同簇的样本尽可能不同。即:
		1"簇内相似度(intra-cluster similarity)" 要高
		2"簇间相似度(inter-cluster similarity)" 要低
  • 4.2 聚类性能度量
- "外部指标(external index):"
		将聚类结果与某个"参考模型" (reference model) 进行比较。

- "内部指标(inrernal index):"
		直接考察聚类结果而不利用任何参考模型。

4.3 外部指标公式

已 知 : 已知:
           数 据 集 D = { x 1 , x 2 , . . . , x m } \ \ \ \ \ \ \ \ \ \ 数据集D = \{x_1, x_2, ..., x_m\}           D={ x1,x2,...,xm}
           簇 划 分 C = { C 1 , C 2 , . . . , C k } \ \ \ \ \ \ \ \ \ \ 簇划分C = \{C_1, C_2, ..., C_k\}           C={ C1,C2,...,Ck}
           参 考 模 型 的 簇 划 分 C ∗ = { C 1 ∗ , . . . , C s ∗ } \ \ \ \ \ \ \ \ \ \ 参考模型的簇划分C^* = \{C^*_1, ..., C^*_s\}           C={ C1,...,Cs}
           令 λ 表 示 C 对 应 的 簇 标 记 向 量 \ \ \ \ \ \ \ \ \ \ 令\lambda表示C对应的簇标记向量           λC
           令 λ ∗ 表 示 C ∗ 对 应 的 簇 标 记 向 量 \ \ \ \ \ \ \ \ \ \ 令\lambda^*表示C^*对应的簇标记向量           λC

定 义 : 定义:
           a = ∣ S S ∣ , S S = { ( x i , x j ) ∣ λ i = λ j , λ i ∗ = λ j ∗ , i < j } \ \ \ \ \ \ \ \ \ \ a = |SS|, SS = \{(x_i, x_j) | λ_i=λ_j,λ^*_i=λ^*_j,i<j\}           a=SS,SS={ (xi,xj)λi=λj,λi=λj,i<j}

           b = ∣ S D ∣ , S D = { ( x i , x j ) ∣ λ i = λ j , λ i ∗ ≠ λ j ∗ , i < j } \ \ \ \ \ \ \ \ \ \ b = |SD|, SD = \{(x_i, x_j) | λ_i=λ_j,λ^*_i\neqλ^*_j,i<j\}           b=SD,SD={ (xi,xj)λi=λj,λi=λj,i<j}

           c = ∣ D S ∣ , D S = { ( x i , x j ) ∣ λ i ≠ λ j , λ i ∗ = λ j ∗ , i < j } \ \ \ \ \ \ \ \ \ \ c = |DS|, DS = \{(x_i, x_j) | λ_i\neqλ_j,λ^*_i=λ^*_j,i<j\}           c=DS,DS={ (xi,xj)λi=λj,λi=λj,i<j}

           d = ∣ D D ∣ , D D = { ( x i , x j ) ∣ λ i ≠ λ j , λ i ∗ ≠ λ j ∗ , i < j } \ \ \ \ \ \ \ \ \ \ d = |DD|, DD = \{(x_i, x_j) | λ_i\neqλ_j,λ^*_i\neqλ^*_j,i<j\}           d=DD,DD={ (xi,xj)λi=λj,λi=λj,i<j}

解 释 1 : 解释1: 1
           样 本 两 两 配 对 , 每 个 样 本 对 仅 能 出 现 在 一 个 集 合 中 \ \ \ \ \ \ \ \ \ \ 样本两两配对,每个样本对仅能出现在一个集合中           ,

解 释 2 : 解释2: 2
           S S : 样 本 对 , 在 C 和 C ∗ 中 都 隶 属 于 相 同 簇 \ \ \ \ \ \ \ \ \ \ SS:样本对,在C和C^*中都隶属于相同簇           SS:CC

           S D : 样 本 对 , 在 C 中 隶 属 于 相 同 簇 , 但 在 C ∗ 中 隶 属 于 不 同 簇 \ \ \ \ \ \ \ \ \ \ SD:样本对,在C中隶属于相同簇,但在C^*中隶属于不同簇           SD:CC

           D S : 样 本 对 , 在 C 中 隶 属 于 不 同 簇 , 但 在 C ∗ 中 隶 属 于 相 同 簇 \ \ \ \ \ \ \ \ \ \ DS:样本对,在C中隶属于不同簇,但在C^*中隶属于相同簇           DS:CC

           D D : 样 本 对 , 在 C 和 C ∗ 中 都 隶 属 于 不 同 簇 \ \ \ \ \ \ \ \ \ \ DD:样本对,在C和C^*中都隶属于不同簇           DD:CC

结 论 : 结论:
           J a c c a r d 系 数 : J C = a a + b + c \ \ \ \ \ \ \ \ \ \ Jaccard系数:JC = \frac{a}{a+b+c}           JaccardJC=a+b+ca
{}
           F M 指 数 : F M I = a a + b ∗ a a + c \ \ \ \ \ \ \ \ \ \ FM指数:FMI =\sqrt{\frac{a}{a+b} *\frac{a}{a+c}}           FMFMI=a+baa+ca
{}
           R a n d 指 数 : R I = 2 ( a + d ) m ( m − 1 ) \ \ \ \ \ \ \ \ \ \ Rand指数:RI = \frac{2(a+d)}{m(m-1)}           RandRI=m(m1)2(a+d)
{}
( 三 个 都 是 [ 0 , 1 ] , 值 越 大 , 性 能 度 量 越 大 , 越 好 ) (三个都是[0,1],值越大,性能度量越大,越好) [0,1]

4.4 内部指标公式

已 知 : 已知:
           聚 类 结 果 的 簇 划 分 C = { C 1 , . . . , C k } \ \ \ \ \ \ \ \ \ \ 聚类结果的簇划分C = \{C_1,...,C_k\}           C={ C1,...,Ck}

定 义 : 定义:
           a v g ( C ) = 2 ∣ C ∣ ( ∣ C ∣ − 1 ) ∑ 1 ≤ i < j ≤ ∣ C ∣ d i s t ( x i , x j ) \ \ \ \ \ \ \ \ \ \ avg(C)=\frac{2}{|C|(|C|-1)}\sum_{1\leq i<j\leq |C|}dist(x_i,x_j)           avg(C)=C(C1)21i<jCdist(xi,x

  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

姜满月

鼓励,鼓励,更加努力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值