机器学习【KNN】(入门必备)
- KNN的全称是K Nearest Neighbors。顾名思义,k个最接近的邻居。可以用于分类,也可以用于回归。
如上图所示。中心点为测试数据,其他五边形和五角星为训练数据。k=3,测试数据属于五边形;k=5,测试数据属于五角星。
距离公式
- 欧式距离
d ( x , y ) = ( x 1 − y 1 ) 2 + ( x 2 − y 2 ) 2 + ⋅ ⋅ ⋅ + ( x n − y n ) 2 = ∑ i = 1 n ( x i − y i ) 2 d(x, y) = \sqrt[]{(x_1 - y_1)^2 + (x_2 - y_2)^2 + ··· + (x_n - y_n)^2} = \sqrt[]{\sum_{i=1} ^ n {(x_i - y_i)} ^ 2} d(x,y)=(x1−y1)2+(x2−y2)2+⋅⋅⋅+(xn−yn)2=i=1∑n(xi−yi)2
- 曼哈顿距离
d ( x , y ) = ∣ x 1 − y 1 ∣ + ∣ x 2 − y 2 ∣ + ⋅ ⋅ ⋅ + ∣ x n − y n ∣ = ∑ i = 1 n ∣ x i − y i ∣ d(x, y) = |x_1 - y_1| + |x_2 - y_2| + ··· + |x_n - y_n| = \sum_{i=1} ^ n {|x_i - y_i|} d(x,y)=∣x1−y1∣+∣x2−y2∣+⋅⋅⋅+∣xn−yn∣=i=1∑n∣xi−yi∣
KNN分类
- 新来一个点,统计这个点周围距离最近k个点的类别标签,就可以推断出这个点属于哪个类别。
算法原理
* 新来一条测试数据,计算该数据与n训练数据之间的距离。
* 将得到的n个距离值排序。
* 取距离最小的k条数据。
* 计算k条数据所在类别的频数。
* 最后返回k条数据出现频数最高的类别,即为测试数据的类别。
KNN回归
- 新来一个点,取这个点周围距离最近k个点的均值,然后去预测这个点的值。
算法原理
* 新来一条测试数据,计算该数据与n条训练数据之间的距离。
* 将得到的n个距离值排序。
* 取距离最小的k条数据的值,求均值。
* 返回均值做为测试数据的预测值。
欢迎大家交流学习,任何问题都可以留言