一、【word2vec学习路线】神经网络语言模型

最新推荐文章于 2024-09-08 21:00:00 发布

笨猴兄_倒腾数据

最新推荐文章于 2024-09-08 21:00:00 发布

阅读量4.8k

点赞数

分类专栏： NLP 文章标签：神经网络 nlp 机器学习数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/benhouxiong/article/details/20371479

版权

NLP 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1. 统计语言模型（statistical model of language）

统计语言模型中，把一段包含T个词的语料表示为

w_t 表示第t个词，统计每个词在前面n个词出现的条件下的概率，用一幅图来表达就是：

应用这个模型的时候，为了降低复杂度，基于马尔科夫假设（Markov Assumption）：下一个词的出现仅依赖于它前面的一个或几个词，上面的公式可以近似为：

上面那张图就变成（n=2）：

这就变成了n-gram 模型，也就是构造了一个每个词关于最近n个词的条件概率表。

那么，我们在面临实际问题时，如何选择依赖词的个数，即n。

更大的n：对下一个词出现的约束信息更多，具有更大的辨别力；
更小的n：在训练语料库中出现的次数更多，具有更可靠的统计信息，具有更高的可靠性。

一般选择一个折衷，取n=3，即 trigrams

2. 神经网络语言模型(Neural Probabilistic Language Model )

n-gram模型有两个缺点

由于训练语料限制,无法追求更大的n
没有考虑到相似的语法结构。

为了提高语言模型在这方面的表现，Yoshua Bengio等人提出的神经网络语言模型：

方法如下：

将词典中每个词表示为向量
用词向量表示每个词在句子中的联合概率函数
同时学习词向量和联合概率函数参数

表示为一个神经网络：

最后一层是一个softmax

softmax输入表示为

其中x为

C(w_t) 表示将词 w_t向量化。

相当于有两层隐含层，一层向量化层C，一层tanh H。

需要学习的参数总共：θ = (b,d,W,U,H,C).

#θ = |V |(1 + nm + h) + h(1 + (n − 1)m).

V为词数，n为窗口大小，m为词向量维度，h为隐含层H的节点数。

使用最大似然最优化：

具体求解方法还请阅读paper

虽然模型在有限训练数据下，可以提高n的取值，且可以描述出更细致的词与词的关系，但模型优化计算复杂度要远高于n-gram，因为n-gram要得到一个样本的联合概率不需要计算词典中所有词的概率，而神经网络表达需要在最后一层softmax计算所有词的输出做归一化。

训练一个样本需要的计算复杂度是

|V |(1 + nm + h) + h(1 + nm) + nm

如果V很大的话，这个计算是非常耗时的，下篇我会介绍层次神经网络语言模型，通过把词表表示成一个树的结构，可以吧 |V| 降到 log|V|，使得问题可解。

参考文献

【A Neural Probabilistic Language Model 】

笨猴兄_倒腾数据

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。