ML-kNN 多标签k近邻算法 MLL Week 1_ml-knn:a lazy learning approach to multi-label lea-CSDN博客

本文链接：https://blog.csdn.net/Kodoo/article/details/49905877

本文是学习《ML-kNN: a lazy learning approach to multi-label learning》的笔记，主要介绍了ML-kNN算法在多标签学习中的应用。传统kNN算法基于最近邻原则进行分类，而在多标签问题中，ML-kNN利用最大后验概率准则确定实例的标签集合。通过计算k个最近邻实例中标签出现的频率，结合贝叶斯公式来决定新实例的标签。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

ML-kNN 多标签k近邻算法 MLL Week 1

ML-kNN 多标签k近邻算法 MLL Week 1
- 传统kNN
- 多标签kNN

学习张敏灵老师的《ML-kNN: a lazy learning approach to multi-label learning》的学习笔记。

传统kNN

k近邻算法(k-Nearest Neighbour, KNN)是机器学习中最基础，最简单的常用算法之一。其思想非常直接：如果一个样本在特征空间中的k个最相似(即特征空间中距离最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。
如下图的 $X_u$ ，它最近的邻居中属于 $\omega_1$ 的最多，因此他被归类于 $\omega_1$ 类。
这里写图片描述
这个思想很容易理解，就是俗话中常说的“近朱者赤，近墨者黑”。在单标签学习中，与一个实例在特征空间中越相近(即距离越近)的实例，他们之间标签相同的可能性就越大。

多标签kNN

而在多标签问题中，我们仍可根据这个思想推导出多标签学习的kNN算法，即ML-kNN算法。
多标签kNN的主要思想是对于每一个新实例(instance)，距离它最近的k个实例(特征空间中与它的距离最小的k个实例)可以首先得到，然后得到这些实例的标签集合，之后通过最大后验概率准则来确定新实例的标签集合。

这里给出算法的具体数学计算方法：

变量定义：
$k$ 为取最近邻个数
$Y$ 为所有标签的集合，总标签个数可以定义为 $n$
$l$ 为一个标签， $l \in Y$
$x$ 为一个实例
$Y_x$ 为实例 $x$ 对应的标签集合， $Y_x \in Y$
$\vec y_x$ 为 $x$ 的标记向量，是一个 $1\times n$ 的行向量，它的元素 $\vec y_x(l)$ 若为1，代表 $l\in Y_x$ ，若为0，则 $l\notin Y_x$
$N(x)$ 记录 $x$ 的 $k$ 个最近邻的索引