上节中我们已经接触到了图像识别中的两部分score function和 loss function,这节将会引入对loss function的优化求解,也就是optimization。为了求解loss function我们首先将loss function 可视化
Visualizing the loss function
一般来说在图像处理的时候我们结果的数据都是多维的,前面CIFAR-10 的图片有3072维,一共10类,那么我们需要的参数就有30730个数据(表忘了还有b噢),显然无法将这么多维数据直接可视化,我们的方法是:先随机选一个初始的参数向量(30730个参数),然后给定一个变化的方向,每次沿这个方向变化一点就可以得到沿这个方向变化的所有参数的表现情况(一维可视化 L(W+aW1) ),如果我们给定了两个变化的方向,就可以在二维平面将其可视化( L(W+aW1+bW2) ),如下图:
这里左侧是以个方向的变化情况,纵坐标是loss值,右侧是两个方向变化得到的loss值(蓝色代表小的loss),左侧和中间是在一个数据上得到的loss,最右侧是在100个样本中得到的loss之后取的平均值。
我们可以这样解释loss function的分段线性:
假设我们有三个样本,使用svm分类,分类器只有一个参数w,那么我们可以得到三个样本的loss 函数:
L0=L1=L2=L=max(0,wT1x0−wT0x0+1)+max(0,wT2x0−w