二. KNN算法(临近取样算法)
1. 步骤:为了判断未知实例的类别,以所有已知类型的实例作为参照,选择参数k(k值不好选,选小了过拟合,选大了欠拟合),计算未知实例与所有已知实例之间的距离,从中选择K个,根据少数服从多数的原则,将其归类为K个当中最多数的类别。
2. 距离的衡量方法:直线距离,余弦值,相关度,曼哈顿距离。
3. 算法优缺点: 算法简单,易于理解,容易实现。但是需要大量的空间来存储已知实例,算法的复杂度很高。而且当样本分布不平衡时,也许结果就不太对了,因为样本数量过大,很容易就成为了一个主导样本。
4. KNN改进:考虑权重,也就是用1去除以距离。
希望能够帮到你~~~~~