KNN(下)

最新推荐文章于 2021-06-03 11:34:08 发布

ecy_uooki

最新推荐文章于 2021-06-03 11:34:08 发布

阅读量153

点赞数

本文链接：https://blog.csdn.net/erciyuan_/article/details/100068399

版权

本文介绍了斯坦福大学CS231n课程中关于KNN（k-Nearest Neighbor）的内容，包括验证集用于超参数调优、实际应用中的注意事项、KNN分类器的优缺点。强调了验证集的重要性，不应使用测试集进行调优，推荐使用验证集或交叉验证。此外，还讨论了KNN在高维数据中的局限性，并提供了实际应用KNN的步骤和建议。

摘要由CSDN通过智能技术生成

来自斯坦福CS231n课程笔记image classification notes

内容列表如下：

图像分类、数据驱动方法和流程
Nearest Neighbor分类器
k-Nearest Neighbor
验证集、交叉验证集和超参数调参
Nearest Neighbor的优劣
小结
小结：应用kNN实践
拓展阅读
List item

用于超参数调优的验证集

k-NN分类器需要设定k值，那么选择哪个k值最合适的呢？我们可以选择不同的距离函数，比如L1范数和L2范数等，那么选哪个好？还有不少选择我们甚至连考虑都没有考虑到（比如：点积）。所有这些选择，被称为超参数（hyperparameter）。在基于数据进行学习的机器学习算法设计中，超参数是很常见的。一般说来，这些超参数具体怎么设置或取值并不是显而易见的。

你可能会建议尝试不同的值，看哪个值表现最好就选哪个。好主意！我们就是这么做的，但这样做的时候要非常细心。特别注意：决不能使用测试集来进行调优。当你在设计机器学习算法的时候，应该把测试集看做非常珍贵的资源，不到最后一步，绝不使用它。如果你使用测试集来调优，而且算法看起来效果不错，那么真正的危险在于：算法实际部署后，性能可能会远低于预期。这种情况，称之为算法对测试集过拟合。从另一个角度来说，如果使用测试集来调优，实际上就是把测试集当做训练集，由测试集训练出来的算法再跑测试集，自然性能看起来会很好。这其实是过于乐观了，实际部署起来效果就会差很多。所以，最终测试的时候再使用测试集，可以很好地近似度量你所设计的分类器的泛化性能（在接下来的课程中会有很多关于泛化性能的讨论）。