对输入数据的表达形式很敏感。K近邻算法(k-nearnest neighbors)可做回归和分类,两者的区别在于最后做预测的决策方式不同;回归是选择平均法,即最近的k个样本的样本输出值的平均值作为回归的预测值;分类是多数表决法,即训练集中和预测的样本特征最近的k个样本,预测为里面有最多类别数的类别。
(1)KNN算法三要素
- KNN算法三要素:k值的选择,距离的度量方式和分类决策规则
- k值的选择:一般根据样本分布,选择较小的k值,然后采用交叉验证的方式选择合理k值;k值太小会导致模型太复杂,易发生过拟合现象;k值太大会导致模型过于简单
- 距离的度量方式:(1)欧氏距离 D = ∑ i = 1 n ( ∣ x i − y i ∣ ) 2 D=\sqrt[]{\displaystyle\sum_{i=1}^{n}(|x_i-y_i|)^2} D=i=1∑n(∣xi−y