从样本中找与预测样本距离最近的k个数据
这k个数据所属类别投票决定了预测样本的类别
距离公式:
d a b = ∑ i = 1 m ∣ a i − b i ∣ n n d_ab=\sqrt[n]{\sum_{i=1}^m |a_i-b_i|^n} dab=n∑i=1m∣ai−bi∣n
余弦相似度:
c o s Θ = ∑ i = 1 m ( a i ∗ b i ) ∑ i = 1 m a i 2 ∗ ∑ i = 1 m b i 2 cos\Theta = \frac{\sum_{i=1}^m(a_i * b_i)}{\sqrt{\sum_{i=1}^m a_i^2}*\sqrt{\sum_{i=1}^m b_i^2}} cosΘ=∑i=1mai2∗∑i=1mbi2∑i=1m(ai∗bi)
其中,a,b为包含m个属性的样本,属性计算时要进行规范化(最大最小值规范化或零均值规范化等)
其中 n=1 时曼哈顿距离,n=2是欧式距离,n $\to$
$\infty$
是切比雪夫距离
最大值最小值规范化:
v = x − l r − l ( R − L ) + L v=\frac{x-l}{r-l}(R-L)+L v=r−lx−l(R−L)+L
其中原来取值区间L,R,映射区间l,r,原值x,映射值v
零均值规范化:
v = x − μ A σ A v=\frac{x-\mu_A}{\sigma_A} v=σAx−μA
其中 μ A \mu_A μA均值, σ A \sigma_A σA标准差,原值x,映射值v