我们接着上一篇继续学习,还是在监督学习的范围内。先讲一下机器学习中最简单的算法之一——k-NN算法。什么是k-NN算法作者举了一个例子,我“填油加醋”的转述下。
假如:湖人队球迷讨厌凯尔特人队球迷,并且不愿与他们做邻居,你搬来我就搬走的地步。凯尔特人队球迷也不喜欢湖人队球迷,不想跟他们做邻居。这时候有个公司在促销凯尔特人队的宣传物品,刚开始一家家敲门推销宣传,可是如果是湖人队球迷它们就会被赶走,那么他们怎么知道哪些家庭可能是湖人队球迷家庭呢?
这就是k-NN算法要做的事了——简单来说,k-NN算法认为一个数据点很可能与它近邻的点属于同一个类别。也就是我们说的湖人队球迷家庭附近往往不会存在凯尔特人队球迷家庭。如果情况更为之复杂(数据点更为混乱密集)呢,这个时候我们就不会只考虑最邻近类别(k=1)了,而是考虑k=n个最邻近的类别。就是说考虑的不再是最邻近的一个点是什么类,我们就认为它是什么类。而是考虑最邻近的k个点,大部分是什么类,我们才归为它是那个类。
首先他把之前去过的家庭位置收集成数据,三角形的是湖人队人,正方形是凯尔特人队,圆圈是他要预测的家庭:
k-NN算法也包含在了Opencv中,那么实现它只需要以下几步:
①生成一些训练数据
②指定k值,创建一个k-NN对象
③找到想要分类的新数据点的k个最邻近的点