Word2Vec学习笔记(二)

二、语言模型

    语言模型可以分为文法型模型和统计语言模型。在实际应用中语言识别、手写体文字识别、机器翻译、键盘输入、信息检索等研究领域都用到了语言模型。文法型语言模型是人工编制的语言学文法,文法规则来源于语言学家掌握的语言学知识和领域知识,但这种语言模型不能处理大规模真实文本。因此,统计语言模型出现了,并且得到了广泛的应用,统计语言模型是基于概率的,包括了N元文法模型(N-gram Model)、隐马尔科夫模型(Hidden Markov Model,简称HMM)、最大熵模型(Maximum Entropy Model)。

1.统计语言模型的基本原理

    统计语言模型是以概率分布的形式说明了一个字符串出现的概率。假设词(word)是语言的最小单位,句子S是由一系列的词 w1,w2,,wk 顺序构成,则句子S的概率为下:

p(s)=p(w1)p(w2|w1)p(wn|w1,w2,,wn1)=i=1np(wi|w1,w2,,wi1)1

且,上式中约定 p(w1|w0)=p(w1) .观察上式可以发现,句子S的概率计算是很复杂的,因此,往往采用一些方法来估计语料库中句子的概率。

2.主要的统计语言模型

2.1 上下文无关模型

    上下文无关模型就是词 w1 的出现与它所处的环境无关,仅仅是它在语料中出现的概率,即它是n-gram中n=1的情况,但是实际上,这种方法效果并不是很好。

2.2 n-gram模型

    n-gram模型是要考虑上下文的。 w1 出现的是依赖于它之前的n-1个词的,即需要计算词表中的每一个n-1元组的概率,此计算量是巨大的,因此实际中,常取n=2 或n=3.

2.3 暂时记录在此

隐马尔科夫模型(Hidden Markov Model,简称HMM)和最大熵模型(Maximum Entropy Model)暂时还没有深入研究,暂时记录下来,以后进行补充。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值