K近邻算法

前言

这是机器学习最简单的算法,当然并不是说简单就没人用。knn算法的优点就是简单而且便于实现,并且有一定好的效果。

算法原理

K近邻的算法思路很简单。

背景

假设 有两个类别散落在这个特征空间中。
image.png

现在有一个新的样本需要预测它属于哪个类别。
image.png

思路介绍

step1: 暴力的求出新样本与其余所有样本的“距离”。
step2: 找到距离它最近的k的点。(这就是k近邻的名称由来)
step3: 进行类别打分,新样本属于分数最高的哪个类别。

然后展开细节讲:

距离

欧式距离

欧式距离的计算就是每个维度的平方和开跟号也就是直线距离。这里用二维的比较好理解。就是其实x(p)是预测的样本,x(t)训练样本。
image.png

当然x,y只有两个特征,现实往往有很多个特征也就是说有很多个维度。
image.png

其中的下标标号就是对应的不同维度。

简写就是
image.png

曼哈顿距离

曼哈顿距离的由来是在城市中的行车距离。
image.png

在现实生活中两点之间并不是都是直线可达的,这样可以把区域分成单元的小块。就像开出租车一样。直线绿色的就是欧式距离,蓝色、红色、黄色都是曼哈顿距离。(图来自 维基百科)
image.png

明可夫斯基定理

仔细看曼哈顿距离和欧氏距离
曼哈顿距离
image.png
欧氏距离
image.png
貌似有个惊人的规律
image.png
这好像是找到了距离公式 的通式。这是新发现么?答案是否定的,有个叫明可夫斯基的人早就发现了这个。那么2以上都都叫明可夫斯基距离(名字起光了,断了后路啊。。。)

K

K值是KNN的一个超参数。(超参数:也就是模型运行前需要确定的参数,K就是KNN算法最为直观的一个超参数)。这个参数需要人为的去调,这也就是人工在其中起的最重要的作用(调参狗)。至于怎么调参?一般需要经验和专业的领域知识。当然也可以老中医式的调参。如果计算量比较小可以使用网格搜索的方法去调参。

分类决策

一般思路是这样的,就是把测试数据丢进去,计算与训练集所有点的距离,找到前K个点的类别。然后进行PK算出类别。
image.png

黑色点:测试样本。
紫色点:类别A。
蓝色点:类别B
如图所示,不管使用的什么距离计算方式,我们可以找到与黑色点与所有点的距离。那么我们就可以找到距离它最近的K个点。然后进行类别打分,明显蓝色的分数比较高。那么该点就属于蓝色点。

这样做是没有问题的。但是机器学习目前还是很依赖数据的而且不同的场景下的应用也是不一样的。
举个栗子
image.png
由图所示虽然蓝色类的得分高,但是黑色点距离紫色点的距离更近一点。或许它更有可能是紫色类。那么我们的距离或许需要一个权重(注意:或许。因为这个距离权重不一定有用,要去试)。这个距离权重一般采用距离的倒数作为权重。
重新计算得分表

那么这个类就属于紫色类了。

模型实现

这里自己造的数据,自己做的最简单的实现。只供理解参考。

import numpy as np
import matplotlib.pyplot as plt
import math
from collections import Counter
rad_1=np.random.randint(1,10,size=(5,2))
rad_1
array([[9, 3],
       [6, 6],
       [3, 6],
       [6, 7],
       [7, 1]])
rad_2=np.random.randint(11,20,size=(5,2))
rad_2
array([[13, 18],
       [15, 15],
       [14, 19],
       [13, 11],
       [11, 17]])
raw_data_X=np.vstack([rad_1,rad_2])
raw_data_X
array([[ 9,  3],
       [ 6,  6],
       [ 3,  6],
       [ 6,  7],
       [ 7,  1],
       [13, 18],
       [15, 15],
       [14, 19],
       [13, 11],
       [11, 17]])
raw_data_y=[0,0,0,0,0,1,1,1,1,1]
y_train=np.array(raw_data_y)
y_train
array([0, 0, 0, 0, 0, 1, 1, 1, 1, 1])
plt.scatter(raw_data_X[y_train==0,0],raw_data_X[y_train==0,1],color='b')
plt.scatter(raw_data_X[y_train==1,1],raw_data_X[y_train==1,1],color='r',alpha=0.5)
plt.show()

!output_6_0.png

x=np.array([13,14])
x
array([13, 14])
plt.scatter(raw_data_X[y_train==0,0],raw_data_X[y_train==0,1],color='b')
plt.scatter(raw_data_X[y_train==1,1],raw_data_X[y_train==1,1],color='r')
plt.scatter(x[0],x[1],color='g',alpha=0.5,marker='*')
plt.show()

!output_8_0.png

KNN过程

X_train=raw_data_X

distance=[(np.sum((x_train-x)**2)**0.5)for x_train in X_train]
nearest=np.argsort(distance)
k=6
topK_y=y_train[nearest[:6]]
Votes=Counter(topK_y)
Votes.most_common(1)[0][0]
1
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值