FNLP lecture 7

FNLP lecture 7

问题:
提前做好reading预习,课后quiz预习巩固,完善笔记
lecture前准备好PPT

solving none-zero problem: G-T(Good Turing)

在这里插入图片描述
权重相加是1:
在这里插入图片描述
Kneser-Ney smoothing: 优势
1、take into account: diversity of history
例子:new york: york总是出现在new后面,用unigram/bigram除非前面是new,否则york出现概率低(但事实是york单独出现概率也不少)

2、

用一个向量来表示一个单词,向量每个元素代表该单词在某个context下的出现频率
在这里插入图片描述
错过了4分钟(30~35左右)

Noisy Channel Model

信息传输会经过errorful encoding,最后得到输出是有错误的
但是Noise的是服从概率分布的(What I am likely to say to you,具体应用中也就是Language Model (LM)

Noise Channel Model的数学本质:给出一个被拼错的单词X,找出最可能正确的原单词Y,也就是使得P(Y|X)最大的Y

在这里插入图片描述
Noisy Channel Model典型应用就是拼写纠错(Spelling Correction)
思考:平时在word,IDE等软件里看到的拼写预测是不是就是LM+Noisy Channel的应用呢,预测的列表可能是用有限copora当场计算出的可能单词Y,按P(Y|X)逆序排序,随着用户使用可以不断更新copora来迎合用户输入习惯

用depth set确定N(N-gram model)

没听懂的/确定的词:
back-off
和smoothing有关的某种方法?

interpolation:插值,插补文字

depth set

parallel corpora
类似的文本?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Kaze-1

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值