Michael collins nlp课程笔记（三）Log-Linear Models

最新推荐文章于 2023-12-01 16:03:10 发布

原创最新推荐文章于 2023-12-01 16:03:10 发布

· 1k 阅读

·

0

·

版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

自然语言处理专栏收录该内容

5 篇文章

订阅专栏

目录

一、Log-Linear提出的动机

二、Log-Linear模型

2.2 特征的构造

2.3 参数估计

讲义链接：http://www.cs.columbia.edu/~mcollins/loglinear.pdf

一、Log-Linear提出的动机

在语言模型和标注问题中，马尔科夫模型和隐马尔科夫模型都做出了很强的条件独立性假设。例如，语言模型中假设了第i个单词出现的概率仅与前两个单词有关，标注问题中假设了第i个tag只与前两个tag有关。实际上，这种假设会忽略掉一些有用的信息。Log-Linear的提出正是为了解决这个问题。

二、Log-Linear模型

2.1 定义

我们的任务是为了建立一个模型，来预测 $y$ 的可能性。

2.2 特征的构造

Log-Linear模型中最核心的部分在于特征的构造，也就是将 $x$ 和 $y$ 通过函数 $f$ 映射到一个特征向量。函数 $f$ 是一组指示函数。在语言模型中，可以是如下的指示函数：

可以看到，这样子构造出来的特征考虑了更多的信息。

这样构造出来的特征向量维度很大，而且只有很小一部分的取值为1，其他都是0，存在着特征稀疏的问题。可以通过一个函数求出特征向量中取值为1的部分，在后续的计算中，使用减少计算的时间。

2.3 参数估计

为了方便后续的求解，对概率 $p(y|x;v)$ 取对数：

由此，也可以看出Log-Linear名字的由来：log是对概率值取对数，linear是指 $logp(y|x;v)$ 是特征向量 $f(x,y)$ 的线性函数。模型的参数就是向量 $v$ 。

训练集的概率对数之和为：。参数的估计可以采用极大似然估计法：

为了避免过拟合以及参数 $v$ 中的某些值取无穷值，引入正则项 $||v||^2 = \sum_k v_k^2$ 。修正后的目标函数为：

为了求解参数 $v$ ，可以使用下面的基于梯度提升的算法：

其中，梯度计算结果为：。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。