图像分类任务
数据集:CIFAR-10
1.最近邻算法:拿着测试图片和训练集中每一张图片去比较,然后将它认为最相似的那个训练集图片的标签赋给这张测试图片。
比较两个数组的相似度:L1 距离: 逐像素相减,再相加,L1的值越小越好
Nearest Neighbor分类器在某些特定情况(比如数据维度较低)下,可能是不错的选择。但是在实际的图像分类工作中,很少使用。
用于超参数调优的验证集
我理解的超参数:训练时可调的参数
从训练集中取一部分作为验证集。进行超参数调优。
选取超参数的正确方法是:将原始训练集分为训练集和验证集,我们在验证集上尝试不同的超参数,最后保留表现最好那个。
交叉验证: 有时候,训练集数量较小(因此验证集的数量更小),人们会使用一种被称为交叉验证的方法,这种方法更加复杂些。还是用刚才的例子,如果是交叉验证集,我们就不是取1000个图像,而是将训练集平均分成5份,其中4份用来训练,1份用来验证。然后我们循环着取其中4份来训练,其中1份来验证,最后取所有5次验证结果的平均值作为算法验证结果。
在实际情况下,人们不是很喜欢用交叉验证,主要是因为它会耗费较多的计算资源。
一般直接把训练集按照50%-90%的比例分成训练集和验证集。