第三讲-损失函数和优化-课时7--损失函数

最新推荐文章于 2024-07-22 20:08:30 发布

i_chase

最新推荐文章于 2024-07-22 20:08:30 发布

阅读量705

点赞数

分类专栏： cs231n视觉识别

本文链接：https://blog.csdn.net/qq_39638957/article/details/80118169

版权

cs231n视觉识别专栏收录该内容

32 篇文章 2 订阅

订阅专栏

SVM有点忘记了，记不得score怎么计算的。该复习一下统计学习方法和林轩田的课了。

-----------------------------------------------------------------------------------------

SVM也是线性分类而已，损失函数是hinge loss，之所以那么复杂的推导来推到去，只是因为：

hinge loss不是处处可导，不能用梯度下降，可参看

https://www.zhihu.com/question/265751466/answer/302448091

而SVM使用对偶形式之后是一个凸优化问题，前人研究的很透彻，求解更快速。

-----------------------------------------------------------------------------------------

下图为多分类损失函数求和项中的一项，横坐标是Syi,纵坐标是损失函数。Sj是定值。

实施类别的预测值要比其余类别的预测值高，而且要高出一个安全距离。下图选择了固定距离为1，这个固定距离并不重要，没有影响。

当权重初始化为很小的值时，那么对于一个数据，所有类别的分数都几乎为0，损失函数为C-1，C为类别数。可以作为debug策略。

如果error measure中加上j=yi的那一项，那么Li会增加1。正是因为我们不使j=yi，才能让Li的最小值变为0，以便与理解。

###################################################

L1正则就是Lasso回归

L2正则就是岭回归

不同点：L1可以让一部分特征的系数缩小到0，权重矩阵变成稀疏矩阵，从而间接实现特征选择。所以L1适用于特征之间有关联的情况。

L2让所有特征的系数都缩小，但是不会减为0，它会使优化求解稳定快速。所以L2适用于特征之间没有关联的情况

L1和L2的结合

L1和L2的优点可以结合起来，这就是Elastic Net

L1和L2的具体解释可以参考https://blog.csdn.net/jinping_shi/article/details/52433975，讲解的非常生动，很详细。

######################################################################################

假设x = [1,1,1,1].T , w1= [1,0,0,0].T , w2 = [0.25,0.25,0.25,0.25].T

使用w1或者w2所得到的预测分数事实上是一样的，但是

L2约束会更喜欢w2，因为w2的模长更小。

L2模型的参数是各个位置都小，而L1是几个位置为0。

L2依赖于所有特征，当数据中含有噪声时（某个特征的值记录错误了），L2的鲁棒性更强.

L2具有正则化的原因是L2之后的参数变小了，参数下模型就简单，当x发生变化时，预测分数变化不会很大（预测分数=参数*x）

####################################################################

二分类的损失函数为

其中yi是0或者1,预测值也是数字。

二分类的代价函数可以改为：

$\begin{align}J(\theta) &= -\frac{1}{m} \left[ \sum_{i=1}^m (1-y^{(i)}) \log (1-h_\theta(x^{(i)})) + y^{(i)} \log h_\theta(x^{(i)}) \right] \\&= - \frac{1}{m} \left[ \sum_{i=1}^{m} \sum_{j=0}^{1} 1\left\{y^{(i)} = j\right\} \log p(y^{(i)} = j | x^{(i)} ; \theta) \right]\end{align}$

$\begin{align}h_\theta(x) = \frac{1}{1+\exp(-\theta^Tx)},\end{align}$

####################################################

多分类的代价函数

$\begin{align}J(\theta) = - \frac{1}{m} \left[ \sum_{i=1}^{m} \sum_{j=1}^{k} 1\left\{y^{(i)} = j\right\} \log \frac{e^{\theta_j^T x^{(i)}}}{\sum_{l=1}^k e^{ \theta_l^T x^{(i)} }}\right]\end{align}$