Computer vision-CSDN博客

Task：image classification

-主要问题：语义鸿沟
-挑战（视角变化，光照，大小，形变，遮挡，背景分割，类间变化）

-普通的硬性编码很难解决这些问题

Strategy

-数据驱动的方法
–1，收集数据并标注（prepare stage : simple & prohibitive）
–2，训练分类器 (learning stage : technique & harder)
–3，测试(test stage)

NN

 --省略学习的过程，或者说只是测试的时候观察样本

Learning stage : 不需要（复杂度O(1)）

Test stage ：找出与测试图片最相似的训练图片（复杂度O(NM)，M张测试图片，N张训练图片）

Define the distance of two image

L1 distance(Manhattan distance,不可导)

L2 distance(Euclidean distance，可导)

Lp distance

Extend NN to KNN

Reason : NN 只是观察一张训练图片，对噪音敏感
Solution : 观察K张训练图片，进行Voting。（K为奇数）

Hyperparameters （K）

aim : 在测试集上，让分类准确率最高
probelm : 不能观察测试集
Solution : 从已有的训练集中取出少部分的图片，模拟测试集（验证集）。大多数情况下，训练样本有限，因此根据不同情况选取不同的规模的测试集。

线性分类器

分类器的构建流程

-定义一个分数函数 (features map)

-定义一个损失函数 (error，指导学习过程)

-正则化 (防止过拟合，因为我们的目的是在测试集上取的最小误差，但是目前优化的损失函数是针对训练集的)

-优化求解模型参数 (需要验证集调节超参数)
线性分类器
线性的分数函数（n维向量， $x_i$ 为第 $i$ 张训练集的特征向量， $f_i$ 代表属于每一类的分数，分数本身未必具有意义）

$f （ x i, W, b) = W ＊ x i + ｂ$ $f（x_i,W,b) =W＊x_i +ｂ$ 　
bias 技巧：
$f （ x i, W) = W ＊ x i$ $f（x_i,W) =W＊x_i$ 　

损失函数 （ $y_i$ 代表第 $i$ 张训练集标注标签，可以构建很多，本质上是对错误的进行惩罚，但是这种衡量所谓的错误有很多办法，比如到其他样本的距离，占据总体的比例，自己是否犯错等）
多类别的SVM的loss：

$L i = \sum j \neq y i m a x (0, f (x i, W) j - f (x i, W) y i + Δ)$ $L_i = \sum_{j \neq y_i} max(0,f(x_i,W)_j - f(x_i,W)_{y_i} + \Delta)$ 　
特殊的，对于二分类的SVM来说，可能的loss：

$L i = C * m a x (0, - y i * f (x i, W) y i + 1) + R (W)$ $L_i = C*max(0,- {y_i}*f(x_i,W)_{y_i} + 1) + R(W)$
正则化
防止过拟合，需要加一项对 $W$ 的约束(可参见贝叶斯的先验概率)， $L2$ 约束如下

$R (W) = \sum k \sum l W 2 k, l$ $R(W) = \sum_{k}\sum_{l} W_{k,l}^2$
因此，最终的损失函数是：
$L = 1 N \sum i \sum j \neq y i m a x (0, f (x i, W) j - f (x i, W) y i + Δ) + α * R (W)$ $L= \frac{1}{N} \sum_i\sum_{j \neq y_i} max(0,f(x_i,W)_j - f(x_i,W)_{y_i} + \Delta) + \alpha * R(W)$
其中， $\Delta$ & $\alpha$ 是相互制约的超参数，一般固定 $\Delta = 1$ ，调节 $\alpha$ 。