最邻近算法 / K邻近算法 / KNN
-
找到离「当前点」最近的「K个数据点」,然后根据「少数服从多数」原则,对「当前点」进行分类。
-
如果K取值太小,可能导致过度拟合。即,如果邻近样本是「噪声」,则会对训练结果造成影响——训练结果在训练集中表现变好,但在测试集中表现变差——近似误差减少,估计误差增大
-
如果K值取值太大,将导致欠拟合。即,远处「不相似的数据」对训练结果产生影响——近似误差增大,估计误差减小
-
-
因为要计算所有点的距离,如果采用「欧氏距离」,则时间复杂度为 O ( N 2 ) O(N^2) O(N2)
-
根据排列组合公式,从N个点中挑出2个进行组合: P N 2 = N ! ( N − 2 ) ! = N × ( N − 1 ) = N 2 − N P_N^2=\frac{N!}{(N-2)!}=N\times(N-1)=N^2-N PN2=(N−2)!N!=N×(N
-