语言模型总结(待完善)

本文介绍了统计语言模型的基础概念,包括马尔可夫假设和目标函数,探讨了n-gram、RNNLMs、LSTM以及BiLSTM的优缺点。重点在于理解语言模型如何通过捕捉上下文依赖来预测序列概率,同时分析了困惑度作为评价指标的重要性。
摘要由CSDN通过智能技术生成

1. 基本概念

1.1语言模型的概念

生成文本序列的通常方式是训练模型在给定所有先前词/字符的条件下预测下一个词/字符出现的概率。此类模型叫作统计语言模型.
任意语言模型的主要目的都是学习训练文本中字符/单词序列的联合概率分布,即尝试学习联合概率函数。从而捕捉训练文本的统计结构。

W = w 1 K = ( w 1 , . . . , w K ) W=w_1^K=(w_1,...,w_K) W=w1K=(w1,...,wK)表示由K个词 w 1 , . . . , w K w_1,...,w_K w1,...,wK按顺序构成的一个句子。则这个句子的概率为 P ( W ) = P ( w 1 K ) = P ( w 1 , . . . , w K ) / / 联 合 概 率 = P ( w 1 ) P ( w 2 ∣ w 1 ) P ( w 3 ∣ w 1 , w 2 ) … P ( w K ∣ w 1 , w 2 , . . . , w K − 1 ) = P ( w 1 ) P ( w 2 ∣ w 1 1 ) P ( w 3 ∣ w 1 2 ) . . . P ( w K ∣ w 1 K − 1 ) / / 记 为 向 量 形 式 = ∏ i P ( w i ∣ w 1 i − 1 ) P(W)=P(w_1^K)=P(w_1,...,w_K)//联合概率 \\=P(w_1)P(w_2|w_1)P(w_3|w_1,w_2)…P(w_K|w_1,w_2,...,w_{K-1}) \\=P(w_1)P(w_2|w_1^1)P(w_3|w_1^2)...P(w_K|w_1^{K-1})//记为向量形式\\=\prod_{i}P(w_i|w_1^{i-1}) P(W)=P(w1K)=P(w1,...,wK)//=P(w1)P(w2w1)P(w3w1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值