二分法举例,我们为了分别一张图片是不是猫,如果是猫就输出1,不是猫输出0
起初,我们用y=ax+b来预测一张图片,但是随着我们输入变多,也就是输入变成了一个矩阵,我们开始用y=w.Tx+b来预测,这里的w是一个列向量,里面有w1,w2,...,wn,其实也就是y=ax+b里面的a,但是由于x变多了,所以w的维度也增加了。但是由于y是线性的,他计算出的值可能大于1,可能小于1,所以我们用到了一个激活函数,比如sigmoid,然后把y放到激活函数里面,那么他的值就被控制在0,1之间。(y)=y^=a,此时的y^代表的就是输出,判别是否是只猫,但是还不够,还要把它放到损失函数中,L(a,y)来计算出损失函数值,也叫误差函数,来判断我们预测的值和真实值之间的差别是多少。最后,把所有样本的损失函数值加起来,除以样本个数m,就得到了代价函数。
也就是说,损失函数是一个样本,代价函数是整体的样本求平均。
我们的目的就是为了求得最小的代价函数,换句话就是,我们是为了求得最小的误差。所以当我们第一次得到了代价函数之后,就要开始反向传播,更新参数,比如用梯度下降法。迭代第二次之后,我们有了更好的参数,算出了更小的代价函数,这就是我们想要的。