1.邻近算法,或k最近邻(KNN),
既能用于回归又能用于分类。是数据挖掘分类技术中最简单的方法。
所谓K最邻,就是K个最近的邻居的意思,就是说,每个样本都可以用它的最接近的k个邻居来代表。
如将房子出租时,租金为多少?看看这个房子周围 此类型的房子都租多少,求平均值以此来定租金。(若找了10个房子,则k=10,即找了10个最近的房子)此处举的例子为回归问题。
算法的实质:找邻居+投票决定(分类问题是投票决定)
2.如何找邻居?找几个邻居?如何投票?
根据距离找邻居。
距离的定义:
常用的距离:
(1)欧式距离(最常用):
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/eeec7cdebe71128d7e66375d86fdc2d1.png)
(2)曼哈顿距离:
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/8a6c8093aacdd8707107b8fe543bdf73.png)
最近的邻居的个数