Word2Vec学习笔记(二)

最新推荐文章于 2022-04-22 22:37:36 发布

_Kevin_Duan_

最新推荐文章于 2022-04-22 22:37:36 发布

阅读量848

点赞数 1

分类专栏：自然语言处理文章标签： word2vec

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chunyun0716/article/details/51645862

版权

自然语言处理专栏收录该内容

19 篇文章 0 订阅

订阅专栏

二、语言模型

语言模型可以分为文法型模型和统计语言模型。在实际应用中语言识别、手写体文字识别、机器翻译、键盘输入、信息检索等研究领域都用到了语言模型。文法型语言模型是人工编制的语言学文法，文法规则来源于语言学家掌握的语言学知识和领域知识，但这种语言模型不能处理大规模真实文本。因此，统计语言模型出现了，并且得到了广泛的应用，统计语言模型是基于概率的，包括了N元文法模型（N-gram Model）、隐马尔科夫模型（Hidden Markov Model，简称HMM）、最大熵模型（Maximum Entropy Model）。

1.统计语言模型的基本原理

统计语言模型是以概率分布的形式说明了一个字符串出现的概率。假设词（word）是语言的最小单位，句子S是由一系列的词 $w_1,w_2, \dots,w_k$ 顺序构成，则句子S的概率为下：

p (s) = p (w 1) p (w 2 | w 1) \dots p (w n | w 1, w 2, \dots, w n - 1) = \prod i = 1 n p (w i | w 1, w 2, \dots, w i - 1) （ 1 ）

$p(s) = p(w_1)p(w_2|w_1)\dots p(w_n|w_1,w_2,\dots,w_{n-1}) \\ =\prod_{i=1}^{n}p(w_i|w_1,w_2,\dots,w_{i-1}) （1）$
且，上式中约定

p(w1|w0)=p(w1) $p(w_1|w_0)=p(w_1)$ .观察上式可以发现，句子S的概率计算是很复杂的，因此，往往采用一些方法来估计语料库中句子的概率。

2.主要的统计语言模型

2.1 上下文无关模型

上下文无关模型就是词 $w_1$ 的出现与它所处的环境无关，仅仅是它在语料中出现的概率，即它是n-gram中n=1的情况，但是实际上，这种方法效果并不是很好。

2.2 n-gram模型

n-gram模型是要考虑上下文的。 $w_1$ 出现的是依赖于它之前的n-1个词的，即需要计算词表中的每一个n-1元组的概率，此计算量是巨大的，因此实际中，常取n=2 或n=3.

2.3 暂时记录在此

隐马尔科夫模型（Hidden Markov Model，简称HMM）和最大熵模型（Maximum Entropy Model）暂时还没有深入研究，暂时记录下来，以后进行补充。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Word2Vec学习笔记(二)

二、语言模型语言模型可以分为文法型模型和统计语言模型。在实际应用中语言识别、手写体文字识别、机器翻译、键盘输入、信息检索等研究领域都用到了语言模型。文法型语言模型是人工编制的语言学文法，文法规则来源于语言学家掌握的语言学知识和领域知识，但这种语言模型不能处理大规模真实文本。因此，统计语言模型出现了，并且得到了广泛的应用，统计语言模型是基于概率的，包括了N元文法模型（N-gram Model）
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。