一、简单的算法说明
KNN是机器学习的最经典分类算法之一,其核心原理为:
- 通过度量函数,比如常用的欧氏距离找出训练样本中与待测点距离最近的K个点;
- 通过K个点的Label标签进行民主投票,从而对待测点样本进行分类。
通过对上述两个核心步骤理解,我们可以有一下几点的认识:
- KNN算法原理极其简单,算法没有显式的训练过程;
- KNN每一次对待测样本点的分类投票,都会遍历一次所有训练样本,因此时间的复杂度和储存的训练样本有关,不适合海量数据的分类;
二、Python调包实战
下面贴出用Python调用各种包写的KNN分类代码,数据是按照规则随机生成的:样本总数600,类别6类,每一类100个样本,3个特征,行为单个样本,前三列为特征向量,最后一列为类别。
调用sklearn包可以使用KNeighborsClassifier()函数来实现KNN,一些函数的参数说明可以参考官方的文档:
http://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html
# -*- coding: utf-8 -*-
"""
@author: Administrator
&#