Log-linear模型广泛用于NLP分类任务中。Log-linear模型给出观察对象/标记输出(observation/label)对一个联合概率,其中(x, y)∈X×Y:
(1)
其中是一个实值特征权重向量,是特征函数:(x,y)——>实数特征向量。
下面讲解Log-linear的特性。
假设有训练集,那么权重向量为
(5)式是凹函数(concave),可以得到仅有的一个最大值。
更多的,我们计算给出观察对象的的前提下,得到标记输出的条件概率;一个样例(x,y),对应的条件概率为:
训练条件Log-linear模型等价于最大化条件概率(6式)乘积:
(9)式是凹函数的证明:
(10)式对求偏导后得到:
则梯度为:
进一步可以得到二阶偏导数:
则二阶偏导数组成的海森矩阵(Hessian Matrix)是一个带符号的协方差矩阵,而协方差矩阵是半正定矩阵。而海森矩阵为半正定阵,则目标函数是一个凹函数。
由上可知Log-linear模型中的目标函数是一个凹函数,可以用爬山算法(hill-climbing)来得到最大值。应该也可以用梯度上升算法来得到最大值。