【NLP】n-gram LM & NN LM

本文介绍了n-gram语言模型,包括任务描述、模型结构和优化技巧,如平滑处理。还探讨了神经网络语言模型(NN LM)的优势,如避免统计信息需求和内建平滑。最后提到了评估语言模型的Word Error Rate。
摘要由CSDN通过智能技术生成

n-gram LM

语言模型是生成模型,是一个泛泛的概念,通俗来讲,就是给定一句话的前半部分,预测生成剩余的部分。这里主要介绍一个简单的LM方法,n-gram。

任务描述

输入一个句子的开头单词:比如 I;

输出最有可能生成的完整的句子,比如:I love NLP.

假设S代表了整个句子,包含单词W1,W2,…,则我们的目标是逐个单词生成句子,使得最后的句子的概率P(S)最大。根据极大似然估计:

max ⁡ P ( S ) = max ⁡ P ( W 1 , W 2 , . . . , W N ) = max ⁡ P ( W 1 ) P ( W 2 ∣ W 1 ) P ( W 3 ∣ W 1 , W 2 ) . . . P ( W N ∣ W 1 , . . . , W N − 1 ) \max P(S) = \max P(W_1,W_2,...,W_N)= \max P(W_1)P(W_2|W_1)P(W_3|W_1,W_2)...P(W_N|W_1,...,W_{N-1}) maxP(S)=maxP(W1,W2,...,WN)=maxP(W1)P(W2W1)P(W3W1,W2)...P(WNW1,...,WN1)

模型结构

n-gram模型假设当前生成的单词只与其前面的n-1个单词有关,即:

Bigram/2-gram:  P ( W 1 , W 2 , . . . , W N ) = ∏ i = 2 N P ( W i ∣ W i − 1 ) \text{Bigram/2-gram: } P(W_1,W_2,...,W_N) = \prod_{i=2}^N P(W_i|W_{i-1}) Bigram/2-gram: P(W1,W2,...,W

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值