NLP课程笔记(严睿老师)—— 语言模型(N-grams)

本文详细介绍了概率语言模型,探讨了马尔可夫假设下的Unigrams、Bigrams和N-grams模型,强调了bigram和trigram在实际应用中的常见性。此外,还讨论了评估模型的困惑度(Perplexity)及其在防止过拟合中的作用,以及平滑技术如Add-one Smoothing和Interpolation在处理未知词问题上的应用。
摘要由CSDN通过智能技术生成

一、probabilistic Language Modeling

目标:计算一个句子或句子中单词出现的概率

怎么计算?The chain rule 计算联合概率

可以直接用count来估计概率吗?不可以

马尔可夫假设(Markov Assumption):滑动窗口,只与临近的几个词有关

Unigrams: 每个单词独立,与其他词没有关系

Bigram model: 认为只与相邻的前一个词有关系(实际上不是很够)

N-gram models:

  • 扩展到trigrams, 4-grams, 5-grams。
  • 一般经验上,bigram和trigrams比较常用。(实际上insufficient)但是long-distance dependencies的情况比较少,长尾事件忽略掉。

计算时,将乘法转化为log相加。

Google N-Gram Release, 2006

腾讯release过一个word2vec的中文版

二、Evaluation and Perlexity

extrinsic evaluation of N-gram models

比较模型A和B的效果:

  • 把模型放到task上跑,比较效果

困难:花费时间太久。

所以使用 intrinsic evaluationn: perplexity(混淆度、困惑程度)

intuition of perplexity

Shannon Game intuition for perplexity

5.21号有一个NLP顶会的投稿

300

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值