数据驱动方法
- K最近邻算法
- 线性分类器
- 代数、视觉、几何观点
- 支持向量机(SVM)和Softmax损失
图像分类的困难:Semantic Gap(语义鸿沟);挑战:视角变化(变化后所有像素都在变)、"光照" 或 "照明"、"背景杂乱"、"遮挡"、形变、类内变异、上下文
机器学习:数据驱动方法
- 收集图像和标签的数据集
- 使用机器学习算法训练分类器
- 在新图像上评估分类器
第一个介绍的是 K最近邻算法,利用距离矩阵去对比图像。(距离矩阵包括了:曼哈顿距离和欧几里得距离)
对于每个测试图像:
- 找到最接近的训练图像
- 预测最近图像的标签
问:对于N个示例,训练和预测速度如何? 答:训练O(1),预测O(N)
这不好:我们希望分类器在预测时速度快,训练较慢是可以接受的。
K近邻的应用:
http://vision.stanford.edu/teaching/cs231n-demos/knn/自己尝试应用K近邻算法
超参数:最好使用的k值是多少? 最好使用的距离是什么? 这些是超参数:关于算法本身的选择。 非常依赖于具体问题和数据集。 必须尝试所有可能的值,找出最有效的组合。
k最近邻算法中从未使用像素距离。
- 对像素的距离度量不具信息量。
- 维度灾难
K-最近邻算法总结:
在图像分类中,我们从一组带有标签的训练图像开始,必须在测试集上预测标签。
K-最近邻分类器基于K个最近的训练样本来预测标签。
距离度量和K是超参数。
使用验证集选择超参数。
仅在最后一次在测试集上运行!k近邻意思是训练时只储存数据,然后要预测时再通过测试集与训练集一一比较来选出最佳的k个?是的,您理解得非常正确。在k近邻(kNN)算法中,训练阶段实际上只是将训练数据存储在内存中,并没有进行显式的学习或模型参数的调整。而在预测阶段,对于每个新的测试样本,都需要与训练集中的所有样本进行比较,找到最近的k个邻居,然后基于这k个邻居进行决策。
线性分类器:
线性分类器难以解决的问题
线性分类器 - 选择一个好的权重矩阵 W
1. 定义一个损失函数,用于衡量我们对训练数据中得分的不满意程度。
2. 设计一种高效的方法,寻找最小化损失函数的参数。(优化)介绍了几种损失函数:最小二乘、合页损失函数、
Q1: 如果对于这个训练样本,汽车的分数减小了0.5,损失会发生什么变化?
Q2: SVM损失Li的最小/最大可能值是什么?
Q3: 在初始化时,W很小,因此所有的s都约等于0。假设有N个例子和C个类别,损失Li是多少?
Q4: 如果求和涵盖了所有类别(包括j = y_i),会发生什么?
Q5: 如果我们使用平均值而不是总和会发生什么?
Q6: 如果我们使用了,这会怎么样?
代码细节:为什么要将某一样本的分类分数要置于0,因为合页损失函数就是这样的。
softmax分类器:
将原始分类器分数解释为概率
Q1: Softmax损失Li的最小/最大可能值是什么?
Q2: 在初始化时,所有的sj都将近似相等;假设有C个类别,Softmax损失Li是多少?
注意对比合页损失和softmax损失。