Machine Learning Park--KNN

最新推荐文章于 2024-04-25 18:29:56 发布

爱笑的Gary哥

最新推荐文章于 2024-04-25 18:29:56 发布

阅读量1.3k

点赞数

分类专栏： Machine Learning Park 文章标签：机器学习 sklearn python

本文链接：https://blog.csdn.net/Garyboyboy/article/details/121871504

版权

12 篇文章 1 订阅

订阅专栏

本文Github仓库已经同步文章与代码https://github.com/Gary-code/Machine-Learning-Park/tree/main/Part1%20Machine%20Learning%20Basics

代码说明：

knn_date实践描述：

海伦使用约会网站寻找约会对象。经过一段时间之后，她发现曾交往过三种类型的人:

她希望:

现在她收集到了一些约会网站未曾记录的数据信息，这更有助于匹配对象的归类。

总共有 1000 行。海伦约会的对象主要包含以下 3 种特征:

用官方的话来说，所谓K近邻算法，即是给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的K个实例（K个邻居），这K个实例的多数属于某个类，就把该输入实例分类到这个类中。

下面举一个简单的例子：

图中的那个绿色的圆所标示的数据则是待分类的数据。KNN就是解决这个分类问题的

当无法判定当前待分类点是从属于已知分类中的哪一类时，我们可以依据统计学的理论看它所处的位置特征，衡量它周围邻居的权重，而把它归为(或分配)到权重更大的那一类。这就是K近邻算法的核心思想。

欧氏距离：
$y)=\sqrt{\left(x_{1}-y_{1}\right)^{2}+\left(x_{2}-y_{2}\right)^{2}+\ldots+\left(x_{n}-y_{n}\right)^{2}}=\sqrt{\sum_{i=1}^{n}\left(x_{i}-y_{i}\right)^{2}}$

$d_{12}=\sqrt{(a-b)(a-b)^{T}}(向量表示)$

标准化后的欧式距离:

$\frac{( 标准化前的值－分量的均值 )}{分量的标准差}$
$d_{12}=\sqrt{\sum_{k=1}^{n}\left(\frac{x_{1 k}-x_{2 k}}{s_{k}}\right)^{2}}$

类似一个十字路口拐弯

$\left|x_{1}-x_{2}\right|+\left|y_{1}-y_{2}\right|$

对于两个n维向量a，b:
$d_{12}=\sum_{k=1}^{n} \mid x_{1 k}-x_{2 k} \mid$
当然还有很多类型的距离公式，有兴趣的读者可以自行查阅相关资料。

相信看完上面的简单例子，大家都知道 $K$ 值的选择对分类的结果是有较大影响的，这里我们探讨一下如何选择 $K$ 值。

如果选择较小的K值，就相当于用较小的领域中的训练实例进行预测，“学习”近似误差会减小，只有与输入实例较近或相似的训练实例才会对预测结果起作用，与此同时带来的问题是“学习”的估计误差会增大，换句话说，K值的减小就意味着整体模型变得复杂，容易发生过拟合；
如果选择较大的K值，就相当于用较大领域中的训练实例进行预测，其优点是可以减少学习的估计误差，但缺点是学习的近似误差会增大。这时候，与输入实例较远（不相似的）训练实例也会对预测器作用，使预测发生错误，且K值的增大就意味着整体的模型变得简单。
K=N，则完全不足取，因为此时无论输入实例是什么，都只是简单的预测它属于在训练实例中最多的累，模型过于简单，忽略了训练实例中大量有用信息。

在实际应用中，K值一般取一个比较小的数值，例如采用交叉验证法（一部分样本做训练集，一部分做验证集）来选择最优的K值。

关注