统计学习方法笔记---k近邻

最新推荐文章于 2023-10-09 21:55:53 发布

VIP文章 leemusk

最新推荐文章于 2023-10-09 21:55:53 发布

阅读量277

点赞数

分类专栏： # 统计学习方法

本文链接：https://blog.csdn.net/leemusk/article/details/104826195

版权

缺点：

优点：

注意点：

在求解距离的过程中，数值较大的特征，如取值为1000和10的两个特征，取值为1000的特征会对分类结果产生比较大的影响，但这并不意味着该特征在模型中具有较强的影响力，所以需要对数据进行归一化处理。

k近邻模型的主要原理：计算目标实例与所有样本实例的距离，对距离进行排序，选择出前K个距离最小的样本实例，通常采用投票表决机制，即选择出类别最多的那一种类别。

k近邻是基本且简单的分类与回归方法，既可用于二分类，又可用于多分类。支持线性不可分的数据。K近邻法的基本做法是：对给定的训练实例点和输入实例点，首先确定输入实例点的K个最近邻训练实例点，然后利用这K个训练实例点的类的多数来预测输入实例点的类。
k近邻模型对应于基于训练数据集对特征空间的一个划分。K近邻法中，当训练集、距离度量、K值及分类决策规则确定后，其结果唯一确定。
K邻近法三要素：距离度量、K值的选择和分类决策规则。常用的距离度量是欧氏距离及更一般的 $L_p$ 距离。K值小时，k近邻模型更复杂，即会发生过拟合；k值大时，k近邻模型更简单，即会发生欠拟合。k值的选择反应了对近似误差（训练集的误差）和估计误差（预测集的误差）之间的权衡，通常首先选择较小的k值，再由交叉验证选择最优的k。常用的分类决策是多数表决，对应于经验风险最小化。
K近邻的误分类率：
$\frac 1 k \sum_{x_i \in N_k (x) } I(y_i \not= c_j) = 1 - \frac 1 k \sum_{x_i \in N_k (x) } I(y_i = c_j)$

关注