neighbors分类器有两个重要参数:邻居个数和数据点之间距离的度量方法。实践中使用较小的邻居个数(3、5个)往往可以取到比较好的结果。
k-NN的优点是易于理解,通常不需要过多调节就可以得到不错的性能,构建模型的速度通常很快,但是如果训练集很大,预测速度可能会比较慢。
缺点包括:对于有很多特征的数据集往往效果不好,对于大多数特征的大多数取值为0的数据集(也就是所谓的稀疏数据集)尤为不好,是实践中往往不会用到。
neighbors分类器有两个重要参数:邻居个数和数据点之间距离的度量方法。实践中使用较小的邻居个数(3、5个)往往可以取到比较好的结果。
k-NN的优点是易于理解,通常不需要过多调节就可以得到不错的性能,构建模型的速度通常很快,但是如果训练集很大,预测速度可能会比较慢。
缺点包括:对于有很多特征的数据集往往效果不好,对于大多数特征的大多数取值为0的数据集(也就是所谓的稀疏数据集)尤为不好,是实践中往往不会用到。