为了训练
w
和
概括来讲:
y^(i)=σ(wTx(i)+b),其中σ(z(i))=11+e−x(i)
,其中
x(i)
为第i个训练样本
已知
(x(1),y(1)),...,(x(m),y(m))
,希望
y^(i)≈y(i)
损失函数:
损失函数用来估计预测值(
y^(i)
)与期望输出值(
y(i)
)之间的差异。也就是说,损失函数针对一则训练样例计算误差。
L(y^(i),y(i))=12(y^(i)−y(i))2
L(y^(i),y(i))=−(y(i)log(y^(i))+(1−y(i))log(1−y^(i)))
- 当 y(i)=1 时, L(y^(i),y(i))=−log(y^(i)) ,其中 log(y^(i)) 和 y^(i) 应当接近于1
- 当 y(i)=0 时, L(y^(i),y(i))=−log(1−y^(i)) ,其中 log(1−y^(i)) 和 y^(i) 应当接近于0
成本函数:
成本函数是损失函数在整个训练集上的平均。通过全局最小化成本函数,可以确定参数
w
和
J(w,b)=1m∑mi=1L(y^(i),y(i))=−1m∑mi=1y(i)[log(y^(i))+(1−y(i))log(1−y^(i)))]