Michael collins nlp课程笔记(三)Log-Linear Models

目录

 

一、Log-Linear提出的动机

二、Log-Linear模型

2.1 定义

 2.2 特征的构造

2.3 参数估计

讲义链接:http://www.cs.columbia.edu/~mcollins/loglinear.pdf

一、Log-Linear提出的动机

语言模型标注问题中,马尔科夫模型和隐马尔科夫模型都做出了很强的条件独立性假设。例如,语言模型中假设了第i个单词出现的概率仅与前两个单词有关,标注问题中假设了第i个tag只与前两个tag有关。实际上,这种假设会忽略掉一些有用的信息。Log-Linear的提出正是为了解决这个问题。

二、Log-Linear模型

2.1 定义

 我们的任务是为了建立一个模型,来预测y的可能性。

 2.2 特征的构造

Log-Linear模型中最核心的部分在于特征的构造,也就是将xy通过函数f映射到一个特征向量。函数f是一组指示函数。在语言模型中,可以是如下的指示函数:

可以看到,这样子构造出来的特征考虑了更多的信息。

这样构造出来的特征向量维度很大,而且只有很小一部分的取值为1,其他都是0,存在着特征稀疏的问题。可以通过一个函数求出特征向量中取值为1的部分,在后续的计算中,使用减少计算的时间。

2.3 参数估计

为了方便后续的求解,对概率p(y|x;v)取对数:

由此,也可以看出Log-Linear名字的由来:log是对概率值取对数,linear是指logp(y|x;v)是特征向量f(x,y) 的线性函数。模型的参数就是向量v

训练集的概率对数之和为:。参数的估计可以采用极大似然估计法:

为了避免过拟合以及参数v中的某些值取无穷值,引入正则项||v||^2 = \sum_k v_k^2 。修正后的目标函数为:

 为了求解参数v,可以使用下面的基于梯度提升的算法:

 其中,梯度计算结果为:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值