优点:精度高,对异常值不敏感,无数据输入假定。
缺点:计算复杂度高,空间复杂度高。
适用范围:数值型和标称型。
- KNN算法是在预测的时候才进行运算的。
- 简要介绍步骤就是,准备好一堆样本,想象一下每个样本在空间分布,它的坐标就是他的几个特征值。
- 当需要预测时,求出与样本距离最近的几个点,通过这几个点来判断预测点的分类。
- 在判断的时候,可以通过数不同样本的数量数,最多的即为预测类
- 但是一般情况,与样本的距离不同,权重也会不同,所以为了精确也会根据与那一类的权值大小来判断预测点的类别。
- 优化:在进行数据准备时,可以对数据范围差值很大的数据进行归一化处理,以解决不同特征的权重不同的问题
- 详细解释: