【机器学习系列3】K近邻算法KNearestNeignbors——思路推导和纯Numpy实现

最新推荐文章于 2021-10-21 21:26:26 发布

occamo

最新推荐文章于 2021-10-21 21:26:26 发布

阅读量431

点赞数 1

分类专栏： Machine Learning Python 文章标签： machinelearning

本文链接：https://blog.csdn.net/occamo/article/details/93526373

版权

思路推导

kNN的思想

没有预训练这些过程，kNN单纯是暴力求距离，然后统计k个距离近的样本的标签，谁多听谁的，显而易见这是个近邻匹配的思想。我之前总结过优化思想和出发点：

优化思想	出发点
最小二乘法	最小均方差
最大似然法	最大似然概率

近邻匹配的出发点就是用相似的个体进行投票，我们把重点放在代码上。

手动实现kNN

首先分析有几个部分：KNearestNeignbors作为一个类，应该满足喂入训练数据x和y，然后放入要预测的测试样本，并不经过训练，直接计算这个样本和所有训练样本的距离，统计k个距离最近的样本的标签，最多的标签设为该样本的标签。值得注意的是，我们在计算距离的时候是放入整个矩阵的，因此这个地方需要设计计算的代码。
由此我们可以很快想到造一个计算距离distant、一个预测器predict和一个评价器evaluation，在这里我还加入了一个交叉验证validation
代码如果有不对的还请指正。

计算距离 distant

思路

在这里我设计了两个距离，一个是向量2-范数，一个是余弦相似度cosine。
这两个公式都比较熟悉， $l_2=\sqrt{(x-y)^2}$ ，在矩阵中则需要一些技巧。首先先考虑两个矩阵计算，最后我们想要得到的是 $n_1\times n_2$ 大小的矩阵，分别为测试集和训练集的大小，因为从测试集 $n_1$ 出发要知道和每一个训练集样本的距离。
- 分解后先是求 $x - y$ ，因为一共需要求 $n_1\times n_2$ 个距离，我分别把两个矩阵扩展到这个大小，直接减后再reshape。以测试集为例，大小为 $n_1\times d$ ，先是reshape为 $n_1, 1,d)$ 的张量，这样用tile扩展的时候就可以形成连续相同样本。
  例：
  
  $array([1,2,3],[4,5,6])\quad (2\times 3)$

最低0.47元/天解锁文章

occamo

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【机器学习系列3】K近邻算法KNearestNeignbors——思路推导和纯Numpy实现

目录思路推导kNN的思想手动实现kNN计算距离 distant思路代码实现预测器 predict思路代码评价器 evaluation思路代码交叉验证 validation思路代码与sklearn比较k的影响预测效果![在这里插入图片描述](https://img-blog.csdnimg.cn/20190624234630574.jpg?x-oss-process=image/watermark,...
复制链接

扫一扫

专栏目录