n-gram语言模型

最新推荐文章于 2023-06-12 10:41:47 发布

来路与归途

最新推荐文章于 2023-06-12 10:41:47 发布

阅读量651

点赞数 1

分类专栏：算法思想

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42233538/article/details/107051949

版权

算法思想专栏收录该内容

13 篇文章 0 订阅

订阅专栏

一、Statistical Language Model

在自然语言处理中的一个基本问题：如何计算一段文本序列在某种语言下出现的概率？之所为称其为一个基本问题，是因为它在很多NLP任务中都扮演着重要的角色。例如，"我经常会去图书馆____"，预测该句后面的词。我们会通过已有的语料或上下文，来统计预测这句话可以填某个词的概率。将概率最大的作为预测结果返回。再比如机器翻译中，‘I like Tom so much.’ ===>{‘我’，‘喜欢’，‘汤姆’，‘非常’} 将这个集合里的字词排列组合成句子，然后用语言模型去计算形成句子的概率大小。概率越大，说明翻译越顺畅，越好，就作为最终的答案返回。

统计语言模型给出了这一类问题的一个基本解决框架。对于一段文本序列

它的概率可以表示为：

即将序列的联合概率转化为一系列条件概率的乘积。问题变成了如何去预测这些给定previous words下的条件概率：

由于其巨大的参数空间，这样一个原始的模型在实际中并没有什么用。我们更多的是采用其简化版本——Ngram模型：

常见的如bigram模型（N=2）和trigram模型（N=3）。事实上，由于模型复杂度和预测精度的限制，我们很少会考虑N>3的模型。

我们可以用最大似然法去求解Ngram模型的参数——等价于去统计每个Ngram的条件词频。

为了避免统计中出现的零概率问题，针对于Ngram模型有很多处理的小技巧。

二、N-Gram语言模型

n-gram模型概率公式推导。根据条件概率和乘法公式：

得到

如果直接这么计算，是有很大困难的，需要引入马尔科夫假设，即：一个item的出现概率，只与其前m个items有关，当m=0时，就是unigram，m=1时，是bigram模型,m=2时，是trigram模型。

例如，当利用bigram模型时，P(T)=P(A1)P(A2|A1)P(A3|A2)…P(An|An-1) ，而P(An|An-1)条件概率可以通过极大似然估计求得，等于Count(An-1,An)/Count(An-1)。

来路与归途

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
n-gram语言模型

一、StatisticalLanguageModel在自然语言处理中的一个基本问题：如何计算一段文本序列在某种语言下出现的概率？之所为称其为一个基本问题，是因为它在很多NLP任务中都扮演着重要的角色。例如，"我经常会去图书馆____"，预测该句后面的词。我们会通过已有的语料或上下文，来统计预测这句话可以填某个词的概率。将概率最大的作为预测结果返回。再比如机器翻译中，‘I like Tom so much.’ ===>{‘我’，‘喜欢’，‘汤姆’，‘非常’}将这个集合里的字词排列组合成句子，然...
复制链接

扫一扫

专栏目录

来路与归途 CSDN认证博客专家 CSDN认证企业博客

码龄6年

245: 原创

18万+: 周排名

2万+: 总排名

36万+: 访问

: 等级

4719: 积分

99: 粉丝

205: 获赞

73: 评论

1224: 收藏

私信

关注

热门文章

分类专栏

面试 42篇
算法导论 25篇
pytorch 3篇
工程实践 11篇
Transformers 1篇
k-means
Canopy
搜索引擎 2篇
数据库 4篇
论文笔记 15篇
数据集 2篇
Tkinter 2篇
强化学习 1篇
GAN 2篇
CV2 1篇
随机数 3篇
python 62篇
tensorflow 31篇
机器学习 11篇
爬虫 1篇
算法思想 13篇
文件读取 3篇
numpy 1篇
3D点云 3篇
软件安装 3篇
Faster R-CNN 5篇

最新评论

tkinter窗口切换
m0_57781693: import tkinter as tk
tkinter窗口切换
m0_57781693: from tkinter import ttk
公交车-最短路径
CSDN-Ada助手: 如何使用模拟退火算法对复杂问题进行求解？
n个花园最少多少天完成种花
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)使用更多的站内链接；(3)增加除了各种控件外，文章正文的字数。
torch报错
小珑gg22mm: 不是叫你测试，是叫你怎么解决

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。