作者|SUNIL RAY 编译|Flin 来源|analyticsvidhya
介绍
如果你要问我机器学习中2种最直观的算法——那就是k最近邻(kNN)和基于树的算法。两者都易于理解,易于解释,并且很容易向人们展示。有趣的是,上个月我们对这两种算法进行了技能测试。
如果你不熟悉机器学习,请确保在了解这两种算法的基础上进行测试。它们虽然简单,但是功能强大,并且在工业中得到广泛使用。此技能测试将帮助你在k最近邻算法上进行自我测试。它是专为你测试有关kNN及其应用程序的知识而设计的。
超过650人注册了该测试。如果你是错过这项技能测试的人之一,那么这篇文章是测试问题和解决方案。这是参加考试的参与者的排行榜。
有用的资源
这里有一些资源可以深入了解该主题。
- 机器学习算法的基本知识(带有Python和R代码):R语言进行Logistic回归的简单指南
- K-最近邻(kNN)算法
技能测试问答
1) k-NN算法在测试时间而不是训练时间上进行了更多的计算。
A)真 B)假
解决方案:A
该算法的训练阶段仅包括存储训练样本的特征向量和类别标签。
在测试阶段,通过分配最接近该查询点的k个训练样本中最频繁使用的标签来对测试点进行分类——因此需要更高的计算量。
2)假设你使用的算法是k最近邻算法,在下面的图像中,____将是k的最佳值。
A) 3 B) 10 C) 20 D) 50 解决方案:B
当k的值为10时,验证误差最小。
3)在k-NN中不能使用以下哪个距离度量?
A) Manhattan B) Minkowski C) Tanimoto D) Jaccard E) Mahalanobis F)都可以使用
解决方案:F
所有这些距离度量都可以用作k-NN的距离度量。
4)关于k-NN算法,以下哪个选项是正确的?
A)可用于分类 B)可用于回归 C)可用于分类和回归
解决方案:C
我们还可以将k-NN用于回归问题。在这种情况下,预测可以基于k个最相似实例的均值或中位数。
5)关于k-NN算法,以下哪个陈述是正确的?
- 如果所有数据的比例均相同,则k-NN的效果会更好
- k-NN在少数