假设
其中:
于是高斯分布的概率为:
回到卖房子的问题,房价的误差应该服从高斯分布的随机变量,即
假设误差服从独立同分布IID,则Q的似然性定义为下式,也就是一系列高斯密度函数的乘积:
从定义来看,似然性和概率很相似,但是一般说数据的概率,参数的似然性。
训练的目的是使得参数似然性最大,也就是让数据出现的概率尽量大。为了数学证明的方便,定义对数似然函数:
为了使对数似然函数最大化,则要使后一项尽量大,因为有负号,所以要使下式最小化,从形式可以看出该式就是前面提到的代价函数J(Q)。
常见的分类问题,结果只有是与不是,如人脸检测,病症判断,因此我们的结果集为:
因此需要选择一个函数,使得下式的输出值在0到1之间。
该函数称为Sigmoid function或者logistic function。该函数如下图所示,当z值小时趋向于0,当z值大时趋向于1,与y轴交于0.5。
有了这个函数,则对于输入值,输出值为0或1的概率可以表示为:
接下来需要解决的就是拟合参数的问题,计算参数的似然性。
对数似然函数为:
使用梯度上升方法求似然函数的最大值。
对Q求偏导数:
带入参数更新公式: