CH2 KNN分类算法
每个样本都可以用它最接近的K个邻居来代表,KNN是通过测量不同特征值之间的距离进行分类
2.1 算法图解
2.2 算法步骤
- 输入: 训练样本 { x i , y i } i = 1 n \{x_i, y_i\}^n_{i=1} {xi,yi}i=1n,测试样本 x x x,近邻个数K,距离函数dist
- 输出: 测试样本
x
x
x的预测类别
y
y
y
- 计算测试数据与各个训练数据之间的距离
- 按照距离的递增关系进行排序
- 选取距离最小的K个点
- 确定前K个点所在类别的出现频率
- 返回前K个点中出现频率最高的类别作为测试数据的预测分类
2.2.1 常用的距离度量方法
欧几里得距离
多维空间中各个点之间的绝对距离
d
i
s
t
(
X
,
Y
)
=
∑
i
=
1
n
(
x
i
−
y
i
)
2
dist(X,Y) = \sqrt{\sum^n_{i=1}(x_i-y_i)^2}
dist(X,Y)=i=1∑n(xi−yi)2
明可夫斯基距离
欧式距离的推广,是对多个距离度量公式的概括性表述
d
i
s
t
(
X
,
Y
)
=
(
∑
i
=
1
n
∣
x
i
−
y
i
∣
p
)
1
p
dist(X,Y) = (\sum^n_{i=1}|x_i-y_i|^p)^{\frac{1}{p}}
dist(X,Y)=(i=1∑n∣xi−yi∣p)p1
p=2时得到欧式距离
曼哈顿距离
由明氏距离中p=1时得到的公式,将多个维度上的距离进行求和后的结果
d
i
s
t
(
X
,
Y
)
=
∑
i
=
1
n
∣
x
i
−
y
i
∣
dist(X,Y) = \sum^n_{i=1}|x_i-y_i|
dist(X,Y)=i=1∑n∣xi−yi∣
向量空间余弦相似度
s
i
n
(
X
,
Y
)
=
c
o
s
θ
=
x
⃗
⋅
y
⃗
∣
∣
x
∣
∣
⋅
∣
∣
y
∣
∣
sin(X,Y) = cos\theta = \frac{\vec{x}\cdot\vec{y}}{||x||\cdot||y||}
sin(X,Y)=cosθ=∣∣x∣∣⋅∣∣y∣∣x⋅y