文章目录
1. 无监督学习
- 1.1 无监督学习简介
- "英文:"
Unsupervised Learning
- "概念:"
根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,称之为"无监督学习"。
- "性质:"
1)在"无监督学习"中,训练样本的标记信息是"未知"的。
2)或,训练样本没有标签。
- "分类:"
1)确定型无监督学习
代表:自编码、稀疏自编码、降噪自编码
2)概率型无监督学习
代表:限制玻尔兹曼机
- "用途:"
希望通过"对无标记训练样本的学习"来揭示数据的内在性质及规律,为进一步的数据分析提供基础。
- "联系实际:"
1)缺乏足够的先验知识,因此难以人工标注类别。
2)进行人工类别标注的成本太高。
我们希望,计算机:
1)从庞大的样本集合中选出一些具有代表性的加以标注用于"分类器"的训练。
2)先将所有样本自动分为不同的类别,再由"人类"对这些类别进行"标注"。
3)在无类别信息情况下,寻找"好的特征"。
- "典型例子:"
聚类
- 1.2 浅谈无监督与监督
1. "监督学习"
- 白话描述:我给计算机猫和狗的图片,然后告诉计算机哪个是猫,哪个是狗。计算机带着"打好的标签"去学习。
- 代表算法:决策树,朴素贝叶斯,SVM,k-临近算法
2. "无监督学习"
- 白话描述:我给计算机猫和狗的图片,但是不告诉计算机哪个是猫,哪个是狗。计算机带着"无标签"样本,自己从数据间不同特征,去学习。
- 代表算法:K-Means, EM
3. "半监督学习"
- 白话描述:我给计算机猫和狗的图片,然后有的图片告诉计算机哪个是猫,哪个是狗,有的却不告诉。(对应现实中,数据标签丢失)。
4. "强化学习"
- 又叫"人工智能的机器学习"。计算机(智能体),循环(累积),让奖励最大(预期累积奖励最大化)。
- 例子:AlphagGo
5. "深度学习"
- 通过神经网络来实现的,它以人工神经网络为架构,可以做自然语言处理、计算机视觉等。
- 代表算法:卷积神经网络(CNN),多层感知机(MLP)
2. 聚类
- 2.1 聚类算法的主要方法
- "主要方法:"
划分方法、层次方法
- 2.2 划分方法(划分聚类算法)
- "思想:"
"划分聚类算法"通过优化评价函数把数据集分割为K个部分,它需要K作为输入参数。
- "典型的分割聚类算法:"
1)K-means算法
2)K-medoids算法
3)CLARANS算法
- 2.3 层次方法(分层聚类算法)
- "思想:"
层次聚类由不同层次的分割聚类组成,层次之间的分割具有嵌套的关系。
- "典型的分层聚类算法:"
1)BIRCH算法
2)DBSCAN算法
3)CURE算法
3. 聚类任务
- 3.1 文字描述
- "描述:"
1)"聚类"试图将数据集中的样本划分为若干个"不相交"的子集。
2)每个子集称为一个"簇" (cluster)(样本簇亦称为"类")。
3)每个簇可能对应于一些"潜在的概念(类别)"。
- "例如:"
对于上面的样本簇,"人为"的可以命名。如"浅色瓜" "深色瓜"等。
- "拓展:"
1)"聚类"虽属于"无监督学习",但聚类任务中也可使用"有标记"训练样本(半监督)。
2)但样本的类标记与聚类产生的簇有所不同。
- 3.2 数学描述
已 知 : 已知: 已知:
假 定 样 本 集 D = { x 1 , x 2 , . . . , x m } , m 个 样 本 \ \ \ \ \ \ \ \ \ \ 假定样本集D = \{x_1, x_2, ..., x_m \}, m个样本 假定样本集D={
x1,x2,...,xm},m个样本
每 个 样 本 x i = ( x i 1 , x i 2 , . . . , x i n ) , n 个 特 征 ( n 维 特 征 向 量 ) \ \ \ \ \ \ \ \ \ \ 每个样本x_i = (x_{i1}, x_{i2}, ..., x_{in}), n个特征(n维特征向量) 每个样本xi=(xi1,xi2,...,xin),n个特征(n维特征向量)
聚 类 算 法 : 聚类算法: 聚类算法:
聚 类 算 法 将 D 划 分 为 k 个 不 相 交 的 簇 { C l ∣ l = 1 , 2 , . . . , k } \ \ \ \ \ \ \ \ \ \ 聚类算法将D划分为k个不相交的簇\{C_l | l = 1, 2, ..., k\} 聚类算法将D划分为k个不相交的簇{
Cl∣l=1,2,...,k}
数 学 表 达 为 : C i ⋂ C i + 1 = ∅ 且 D = ⋃ l = 1 k C l \ \ \ \ \ \ \ \ \ \ 数学表达为:C_{i}\bigcap C_{i+1} = \emptyset且D = \bigcup_{l=1}^kC_l 数学表达为:Ci⋂Ci+1=∅且D=⋃l=1kCl
结 果 : 结果: 结果:
用 λ j = { 1 , 2 , . . . , k } 表 示 样 本 x j 的 簇 标 记 , x j ∈ C λ j \ \ \ \ \ \ \ \ \ \ 用\lambda_j = \{1, 2, ..., k\}表示样本x_j的簇标记,x_j\in C_{\lambda_j} 用λj={
1,2,...,k}表示样本xj的簇标记,xj∈Cλj
聚 类 的 结 果 : 可 用 包 含 m 个 元 素 的 簇 标 记 向 量 λ = ( λ 1 ; λ 2 ; . . . ; λ m ) 表 示 。 \ \ \ \ \ \ \ \ \ \ 聚类的结果:可用包含m个元素的簇标记向量 λ=(λ_1;λ_2;... ;λ_m) 表示。 聚类的结果:可用包含m个元素的簇标记向量λ=(λ1;λ2;...;λm)表示。
- 3.3 实际用途
- 聚类既能作为一个"单独过程",用于找寻数据内在的分布结构,
- 也可作为分类等其他学习任务的"前驱过程".
- 3.4 拓展
- 除了"聚类任务",还有
1)密度估计(density estimation)
2)异常检测(anomaly detection)
4. 性能度量
- 4.1 介绍
- "别名/英文:"
有效性指标(validity index)
- "作用:"
1)评估聚类结果的好坏。
2)当明确了性能度量,可直接将其作为聚类过程的优化目标。
- "聚类性能评估的指标:"
同一簇的样本尽可能彼此相似 不同簇的样本尽可能不同。即:
1)"簇内相似度(intra-cluster similarity)" 要高
2)"簇间相似度(inter-cluster similarity)" 要低
- 4.2 聚类性能度量
- "外部指标(external index):"
将聚类结果与某个"参考模型" (reference model) 进行比较。
- "内部指标(inrernal index):"
直接考察聚类结果而不利用任何参考模型。
4.3 外部指标公式
已 知 : 已知: 已知:
数 据 集 D = { x 1 , x 2 , . . . , x m } \ \ \ \ \ \ \ \ \ \ 数据集D = \{x_1, x_2, ..., x_m\} 数据集D={
x1,x2,...,xm}
簇 划 分 C = { C 1 , C 2 , . . . , C k } \ \ \ \ \ \ \ \ \ \ 簇划分C = \{C_1, C_2, ..., C_k\} 簇划分C={
C1,C2,...,Ck}
参 考 模 型 的 簇 划 分 C ∗ = { C 1 ∗ , . . . , C s ∗ } \ \ \ \ \ \ \ \ \ \ 参考模型的簇划分C^* = \{C^*_1, ..., C^*_s\} 参考模型的簇划分C∗={
C1∗,...,Cs∗}
令 λ 表 示 C 对 应 的 簇 标 记 向 量 \ \ \ \ \ \ \ \ \ \ 令\lambda表示C对应的簇标记向量 令λ表示C对应的簇标记向量
令 λ ∗ 表 示 C ∗ 对 应 的 簇 标 记 向 量 \ \ \ \ \ \ \ \ \ \ 令\lambda^*表示C^*对应的簇标记向量 令λ∗表示C∗对应的簇标记向量
定 义 : 定义: 定义:
a = ∣ S S ∣ , S S = { ( x i , x j ) ∣ λ i = λ j , λ i ∗ = λ j ∗ , i < j } \ \ \ \ \ \ \ \ \ \ a = |SS|, SS = \{(x_i, x_j) | λ_i=λ_j,λ^*_i=λ^*_j,i<j\} a=∣SS∣,SS={
(xi,xj)∣λi=λj,λi∗=λj∗,i<j}
b = ∣ S D ∣ , S D = { ( x i , x j ) ∣ λ i = λ j , λ i ∗ ≠ λ j ∗ , i < j } \ \ \ \ \ \ \ \ \ \ b = |SD|, SD = \{(x_i, x_j) | λ_i=λ_j,λ^*_i\neqλ^*_j,i<j\} b=∣SD∣,SD={ (xi,xj)∣λi=λj,λi∗=λj∗,i<j}
c = ∣ D S ∣ , D S = { ( x i , x j ) ∣ λ i ≠ λ j , λ i ∗ = λ j ∗ , i < j } \ \ \ \ \ \ \ \ \ \ c = |DS|, DS = \{(x_i, x_j) | λ_i\neqλ_j,λ^*_i=λ^*_j,i<j\} c=∣DS∣,DS={ (xi,xj)∣λi=λj,λi∗=λj∗,i<j}
d = ∣ D D ∣ , D D = { ( x i , x j ) ∣ λ i ≠ λ j , λ i ∗ ≠ λ j ∗ , i < j } \ \ \ \ \ \ \ \ \ \ d = |DD|, DD = \{(x_i, x_j) | λ_i\neqλ_j,λ^*_i\neqλ^*_j,i<j\} d=∣DD∣,DD={ (xi,xj)∣λi=λj,λi∗=λj∗,i<j}
解 释 1 : 解释1: 解释1:
样 本 两 两 配 对 , 每 个 样 本 对 仅 能 出 现 在 一 个 集 合 中 \ \ \ \ \ \ \ \ \ \ 样本两两配对,每个样本对仅能出现在一个集合中 样本两两配对,每个样本对仅能出现在一个集合中
解 释 2 : 解释2: 解释2:
S S : 样 本 对 , 在 C 和 C ∗ 中 都 隶 属 于 相 同 簇 \ \ \ \ \ \ \ \ \ \ SS:样本对,在C和C^*中都隶属于相同簇 SS:样本对,在C和C∗中都隶属于相同簇
S D : 样 本 对 , 在 C 中 隶 属 于 相 同 簇 , 但 在 C ∗ 中 隶 属 于 不 同 簇 \ \ \ \ \ \ \ \ \ \ SD:样本对,在C中隶属于相同簇,但在C^*中隶属于不同簇 SD:样本对,在C中隶属于相同簇,但在C∗中隶属于不同簇
D S : 样 本 对 , 在 C 中 隶 属 于 不 同 簇 , 但 在 C ∗ 中 隶 属 于 相 同 簇 \ \ \ \ \ \ \ \ \ \ DS:样本对,在C中隶属于不同簇,但在C^*中隶属于相同簇 DS:样本对,在C中隶属于不同簇,但在C∗中隶属于相同簇
D D : 样 本 对 , 在 C 和 C ∗ 中 都 隶 属 于 不 同 簇 \ \ \ \ \ \ \ \ \ \ DD:样本对,在C和C^*中都隶属于不同簇 DD:样本对,在C和C∗中都隶属于不同簇
结 论 : 结论: 结论:
J a c c a r d 系 数 : J C = a a + b + c \ \ \ \ \ \ \ \ \ \ Jaccard系数:JC = \frac{a}{a+b+c} Jaccard系数:JC=a+b+ca
{}
F M 指 数 : F M I = a a + b ∗ a a + c \ \ \ \ \ \ \ \ \ \ FM指数:FMI =\sqrt{\frac{a}{a+b} *\frac{a}{a+c}} FM指数:FMI=a+ba∗a+ca
{}
R a n d 指 数 : R I = 2 ( a + d ) m ( m − 1 ) \ \ \ \ \ \ \ \ \ \ Rand指数:RI = \frac{2(a+d)}{m(m-1)} Rand指数:RI=m(m−1)2(a+d)
{}
( 三 个 都 是 [ 0 , 1 ] , 值 越 大 , 性 能 度 量 越 大 , 越 好 ) (三个都是[0,1],值越大,性能度量越大,越好) (三个都是[0,1],值越大,性能度量越大,越好)
4.4 内部指标公式
已 知 : 已知: 已知:
聚 类 结 果 的 簇 划 分 C = { C 1 , . . . , C k } \ \ \ \ \ \ \ \ \ \ 聚类结果的簇划分C = \{C_1,...,C_k\} 聚类结果的簇划分C={
C1,...,Ck}
定 义 : 定义: 定义:
a v g ( C ) = 2 ∣ C ∣ ( ∣ C ∣ − 1 ) ∑ 1 ≤ i < j ≤ ∣ C ∣ d i s t ( x i , x j ) \ \ \ \ \ \ \ \ \ \ avg(C)=\frac{2}{|C|(|C|-1)}\sum_{1\leq i<j\leq |C|}dist(x_i,x_j) avg(C)=∣C∣(∣C∣−1)2∑1≤i<j≤∣C∣dist(xi,x