kNN 的数学表达式

最新推荐文章于 2023-06-16 10:03:55 发布

闵帆

最新推荐文章于 2023-06-16 10:03:55 发布

阅读量880

点赞数 5

分类专栏：计算机数学基础文章标签：数学建模

本文链接：https://blog.csdn.net/minfanphd/article/details/117505221

版权

计算机数学基础专栏收录该内容

14 篇文章 8 订阅

订阅专栏

kNN 是机器学习的基础算法. 程序容易写, 但要用数学式子来表达, 却有一定难度. 今天我们就来杠一下吧.

1. 基本符号

Table 1. Notations.

符号	涵义
$\mathbf{U} = \{x_1, \dots, x_n\}$	样本集
$\delta_{ij} = \delta(x_i, x_j)$	$x_i$ 与 $x_j$ 的距离
$\delta_{\mathbf{B}}(x_i, x_j)$	使用属性子集 $\mathbf{B}$ 时 $x_i$ 与 $x_j$ 的距离
$d(x_i)$	$x_i$ 的决策属性值, 即类别

说明: 由于 $d$ 要用于表示决策属性, 距离只好用 $\delta$ . 也可以考虑换成 $d i s$ 之类.

2. 方案一: 刚好考虑 $k$ 个邻居

作为 $k$ NN 的基本方案, 邻居刚好考虑 $k$ 个.

2.1 邻域的表示

对于 $\not\in \mathbf{U}$ , 由于它到不同样本的距离可能相等, 其 $k$ 个邻居并不一定唯一, 定义如下:

Definition 1. any $\mathbf{X} \subseteq \mathbf{U}$ is a set of $k$ -nearest neighbors of $\not\in \mathbf{U}$ iff

$|\mathbf{X}| = k$ ;
$\forall x_i \in \mathbf{X}$ and $x_j \in \mathbf{U} \setminus \mathbf{X}$ , $\delta(x, x_i) \leq \delta(x, x_j)$ .

换种写法:
The set family of all $k$ -nearest neighbors of $\not\in \mathbf{U}$ is given by
$\Tau_k(x, \mathbf{U}) = \{\mathbf{X} \subseteq \mathbf{U} \vert |\mathbf{X}| = k, \forall x_i \in \mathbf{X} \textrm{ and } x_j \in \mathbf{U} \setminus \mathbf{X}, dis(x, x_i) \leq dis(x, x_j)\}, \tag{1}$
where $\vert \cdot \vert$ denotes the cardinality of a set.

下面来定义比 $x_i$ 更靠近 $x$ 的集合.
The set of instances that are closer to $x$ than $x_i$ is given by
$x_i, \mathbf{U}) = \{x_j \in \mathbf{U} \vert \delta(x, x_j) < \delta(x, x_i)\}.$

如果想要 $k$ -近邻的唯一性, 就需要加一个条件.
Definition 2. Suppose that $\delta(x, x_i)$ is different for any $x_i \in \mathbf{U}$ . The set of $k$ -nearest neighbors of $x$ is given by
$\tau_k(x, \mathbf{U}) = \{x_i \in \mathbf{U} \vert |C(x, x_i, \mathbf{U})| < k\}. \tag{2}$

2.2 投票过程的表示

根据邻域进行投票, 就可以获得支持率最高的类, 所为最终的分类.

$\tau_k(x, \mathbf{U}) ) = \argmax_{c}\vert \{x_i \in \tau_k(x, \mathbf{U}) \vert d(x_i) = c\} \vert. \tag{3}$

注意到这里的值其实也不是唯一的, 因为得数最多的类别可能不止一个.

2.3 鹏鹏提供的方式

标签为 $c$ 的实例集合为:
$D_c(\mathbf{U}) = \{x_i \in \mathbf{U} \vert d(x_i) = c\}. \tag{4}$

因此
$\tau_k(x, \mathbf{U}) ) = \argmax_{c}\vert \{\tau_k(x, \mathbf{U}) \cap D_c(\mathbf{U})\} \vert. \tag{5}$
甚至
$\tau_k(x, \mathbf{U}) ) = \argmax_{c}\vert \{D_c(\tau_k(x, \mathbf{U}))\} \vert. \tag{6}$

3. 方案二: 处理距离相等更好的方式

假设班上有 1 名同学考了 100 分, 3 名同学考了 99 分, 其他同学都是 98 分及以下. 如果想取前 2 名, 怎么办?
按上一节的方案, 按照某种策略 (包括随机, 低序号优先), 把考 99 分的 3 名同学中选择 1 位作为第 2 名, 其余同学机会.
本节讨论另一种方案: 将这 3 名同学并列第 2. 这种方案的优势是公平, 但劣势是已经不再取刚好 2 名.

3.1 邻域的表示

首先来定义 $x$ 在 $\mathbf{U}$ 中的 $\delta$ 邻域.
Definition 2. The $\varepsilon$ -neighborhood of $x$ in $\mathbf{U}$ is given by
$n_\varepsilon(x, \mathbf{U}) = \{x_i \in \mathbf{U} \vert \delta(x, x_i) \leq \varepsilon\}.$

然后来讨论刚好达到或超过 $k$ 个邻居的域值.
Definition 3. $\varepsilon = \varepsilon(k, x, \mathbf{U})$ is called the $k$ -nearest neighbors threshold of $x$ wrt. $\mathbf{U}$ iff
a) $\vert n_\varepsilon(x, \mathbf{U}) \vert \geq k$ ;
b) Any $\varepsilon' < \varepsilon$ , $\vert n_{\varepsilon'}(x, \mathbf{U}) \vert < k$ .

其中 a) 为达到邻域个数的约束, 条件 b) 为最小性的约束. 两个综合, 就是“刚好达到”.

Definition 4. The extended $k$ nearest neighbors of $x$ in $\mathbf{U}$ is given by $\tau_k(x, \mathbf{U}) = \{x_i \in \mathbf{U} \vert \delta(x, x_i) \leq \varepsilon(k, x, \mathbf{U})\}.$

用这三个定义, 感觉有些绕, 我们再来想想更好的办法.

Definition 3’. The $k$ -nearest neighbors threshold of $x$ wrt. $\mathbf{U}$ is given by
$\varepsilon(k, x, \mathbf{U}) = \min_{\vert n_\varepsilon(x, \mathbf{U}) \vert \geq k} \epsilon.$

用它来代替 Definition 3 好像更简洁. min 下方的条件虽然有点奇怪, 但也是可接受的.

3.2 投票

与上一节相同.

欢迎在留言区拍砖

这里也只是提供一些建模的思路, 只要能说清楚, 内容没毛病都行.

闵帆

关注

5
点赞
踩
3

收藏

觉得还不错? 一键收藏
4
评论
kNN 的数学表达式

kNN 是机器学习的基础算法. 程序容易写, 但要用数学式子来表达, 却有一定难度. 今天我们就来杠一下吧.1. 基本符号Table 1. Notations.符号涵义U={x1,…,xn}\mathbf{U} = \{x_1, \dots, x_n\}U={x1,…,xn}样本集δij=δ(xi,xj)\delta_{ij} = \delta(x_i, x_j)δij=δ(xi,xj)xix_ixi 与 xjx_jxj 的距离δB(xi,xj)\de
复制链接

扫一扫