KNN(K-Nearest Neighbors)K最近邻分类算法
基于一种线性的,计算二个样本之间的距离,进行分类,距离公式决定不同问题(数据集)下模型的准确度,K值决定模型的界限等等,在时间复杂度和测试性能上,KNN不是最优的,但实现是最简单的。
视频中还谈到了关于训练算法与测试样本的依赖性,即如果当前超参数与当前测试样本测试结果非常好,这就表明超参数(距离公式和K值)以及训练算法过于依赖测试样本,将不再具有代表性(只为这个测试样本的模型),感觉像在说一个驳论- -
模型评估
这个其实之前有学习过,在西瓜书里。
留出法
就像上图说所的,方法3,将数据通过训练、确认、测试,选择合适的超参数并在测试中评估改良,才是相对较好的(Better!标绿了,不是嘛)。
交叉评估
Linear Classification(线性分类)
上图就是用颜色来进行划分类别,线性分类每一个只能学习一个模型模板(图中为根据颜色),好多模型模板组成一个神经网络。