统计学习模型——K近邻法

L_earning_

已于 2022-03-19 21:16:57 修改

阅读量887

点赞数

分类专栏：统计学习方法文章标签：机器学习

于 2022-03-18 22:58:45 首次发布

本文链接：https://blog.csdn.net/L_earning_/article/details/123586102

版权

6 篇文章 0 订阅

订阅专栏

一、K近邻法模型（分类与回归方法）

K值的选择：采用交叉验证法进行选取
- 若 $k$ 值过小，整体模型会复杂，容易发生过拟合
- 若 $k$ 值过大，输入实例较远的训练实例也会对其的预测起作用，使预测发生错误
距离度量：常用的距离公式如下图所示：
分类决策规则：多采用多数表决，即由输入实例的K个邻近的训练实例中的多数类决定输入实例的类

输入：训练数据集 $T=\{(x_1,y_1),\cdots,(x_N,y_N)\}$ ，其中 $x_i\in\mathcal{X}=\pmb{R}^n$ 为实例的特征向量， $y_i\in\mathcal{Y}=\{c_1,\cdots,c_k\}$ 为实例的类别， $i=1,2,\cdots,N$ ；实例特征向量 $x$
输出：实例 $x$ 所属的类 $y$
- (1) 根据给定的距离度量，在训练集 $T$ 中找出与 $x$ 最邻近的 $k$ 个点，涵盖这 $k$ 个点的 $x$ 的邻域记作 $N_k(x)$
- (2) 在 $N_k(x)$ 中根据分类决策规则(如多数表决)决定 $x$ 的类别 $y$ ： $y=arg\underset{c_j}{max}\sum_{x_i\in N_k(x)}I(y_i=c_j)$ 其中 $i=1,2,\cdots,N$ ， $j=1,2,\cdots,K$ ， $I$ 为指示函数