如何计算给定一个unigram语言模型_NLP基础-语言模型n-gram

最新推荐文章于 2023-05-19 23:46:00 发布

weixin_39628070

最新推荐文章于 2023-05-19 23:46:00 发布

阅读量352

点赞数

文章标签：如何计算给定一个unigram语言模型

本文链接：https://blog.csdn.net/weixin_39628070/article/details/111767304

版权

本文介绍了NLP中的语言模型，从unigram到n-gram的概念，讨论了unigram的局限性并提出了平滑技术，包括add-one、add-K平滑以及Good Turing平滑，最后探讨了这些方法在生成句子中的应用。

摘要由CSDN通过智能技术生成

语言模型：Unigrams， Bigrams…N-grams

unigram

Unigram：每个单词都是独立的

$$P(w_1,w_2,w_3,…,w_n) = P(w_1)P(w_2)P(w_3)…P(w_n)$$

exp:

$P(今天,是,春节,我们,休息)=P(今天)P(是)P(春节)P(我们)P(休息)$

$P(今天,春节,是,我们,休息)=P(今天)P(春节)P(是)P(我们)P(休息)$

Unigram的局限性：上述例子中后面这两句的概率是一样的，而显然最后一句的概率要低.

如何计算P(word)?

统计单词出现的次数/语料库单词的个数

注: 针对没有出现的单词，结果是0，这样是不太合理的.为解决此问题,通常加入平滑项

bigram

一阶马尔科夫假设

$P(w_1,w_2,w_3,…w_n)$

$=P(w_1)P(w_2|w_1)P(w_3|w_2)…P(w_n|w_{n-1})$

$=P(w_1)\prod_{i=2}^nP(w_i|w_{i-1})$

exp:

$P(今天,是,春节,我们,休息)=P(今天)P(是|今天)P(春节|是)P(我们|春节)P(休息|我们)$

$P(今天,春节,是,我们,休息)=P(今天)P(春节|今天)P(是|春节)P(我们|是)P(休息|我们)$

$$P(上午|今天)= count(今天上午) / count(今天) $$

n-gram

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39628070

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

如何计算给定一个unigram语言模型_语言模型

weixin_35339622的博客

01-12

151

目前机器学习，尤其是因为深度学习的一波小高潮，大家对使用深度学习处理文本任务，兴趣浓厚，数据是特征提取的天花板，特征提取是深度学习的天花板。在缺少语料的情况下，评价算法和研究都很难着手，在调研了众多语料之后，深知高质量的开放语料十分稀少，比如百度开放的Web QA 1.0 语料，包含的问题也就是四万余条，而分成不同的垂直领域，就根本不能用于FAQ模型的训练，这就是我做了这个语料的原因 - 支持常见...

如何计算给定一个unigram语言模型_自然语言处理专栏——语言模型（一）

weixin_39707597的博客

01-03

215

简介语言模型：简单地说，语言模型就是用来计算一个句子的概率的模型，也就是判断一句话是否合理的概率。应用：机器翻译，问答系统，语音识别，分词，输入法，搜索引擎的自动补全等也都应用到了语言模型。语言模型建立对于一个由T个词按顺序构成的句子：p(s)实际上求解的是字符串的联合概率，利用贝叶斯公式，链式分解如下：从上面可以看到，一个统计语言模型可以表示成，给定前面的的词，求后面一个词出现的条件概率。我们在...

参与评论您还未登录，请先登录后发表或查看评论

NLP（三）——语言模型

Exception_3212536934的博客

05-10

3249

目录 Language Model Unigram Bigram N-gram 评估语言模型 Perplexity Smoothing Add-one Smoothing Add-KSmoothing Interpolation Good-Turning Smoothing Language Model 语言模型用来判断一句话是否从语法上通顺。 Unigram Unigram模型假定各个部分相互独立，此种模型下概率计算会相对简单，但是存在问题：下图中的第二个概率和...

unigrams,bigrams,trigrams

ss654271961的博客

10-31

8321

unigrams一元语法 bigrams二元语法 trigrams三元语法 ngrams第N个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。参考自然语言处理中的N-Gram模型详解

uni-gram与bi-gram语言模型

qq_52852138的博客

03-06

3425

实验内容用python编程实践语言模型（uni-gram和bi-gram）,加入平滑技术。计算test.txt中句子的PPL，对比uni-gram和bi-gram语言模型效果。遇到和解决的问题问题1 问题：列表和字典作为实参传入函数时，在函数体内部改变形参，会导致实参也发生改变解决：一维列表传入使用list.copy()，二维字典传入使用copy.deepcopy(dict) 详情可见：Python中实参随形参改变而改变的问题_长命百岁️的博客-CSDN博客。该博客编写于实验过程中，针对本问

如何计算给定一个unigram语言模型_n-gram语言模型

weixin_39890629的博客

12-21

291

一、StatisticalLanguageModel在自然语言处理中的一个基本问题：如何计算一段文本序列在某种语言下出现的概率？之所为称其为一个基本问题，是因为它在很多NLP任务中都扮演着重要的角色。例如，"我经常会去图书馆____"，预测该句后面的词。我们会通过已有的语料或上下文，来统计预测这句话可以填某个词的概率。将概率最大的作为预测结果返回。再比如机器翻译中，‘I like Tom so...

如何计算给定一个unigram语言模型_通俗理解N-gram语言模型。（转）

weixin_39648297的博客

12-21

162

N-gram语言模型考虑一个语音识别系统，假设用户说了这么一句话：“I have a gun”，因为发音的相似，该语音识别系统发现如下几句话都是可能的候选：1、I have a gun. 2、I have a gull. 3、I have a gub. 那么问题来了，到底哪一个是正确答案呢？一般的解决方法是采用统计的方法。即比较上面的1、2和3这三句话哪一句在英语中出现的概率最高，哪句概率最高就把...

如何计算给定一个unigram语言模型_统计语言模型

weixin_39552286的博客

12-21

386

语言模型概述语言模型(Language Model)，就是用来计算一个句子概率的模型。从统计的角度看，自然语言中的一个句子可以由任何词串构成。不过P(s)有大有小。比如：s1 = 我刚吃过晚饭s2 = 刚我过晚饭吃可以看出P(s1)>P(s2)。对于给定的句子而言，通常P(s)是未知的。对于一个服从某个概率分布P的语言L，根据给定的语言样本估计P的过程被称作语言建模。根据语言...

如何计算给定一个unigram语言模型_深入浅出讲解语言模型

weixin_42360972的博客

01-15

599

深入浅出讲解语言模型1什么是语言模型呢？简单地说，语言模型就是用来计算一个句子的概率的模型，也就是判断一句话是否是人话的概率？那么如何计算一个句子的概率呢？给定句子(词语序列)它的概率可以表示为：可是这样的方法存在两个致命的缺陷：參数空间过大：条件概率P(wn|w1,w2,..,wn-1)的可能性太多，无法估算，不可能有用；数据稀疏严重：对于非常多词对的组合，在语料库中都没有出现，依据最大似然估计...

【LLM系列之Tokenizer】如何科学地训练一个LLM分词器

最新发布

yanqianglifei的专栏

05-19

2990

在使用GPT BERT模型输入词语常常会先进行tokenize ，tokenize具体目标与粒度是什么呢？tokenize也有许多类别及优缺点，这篇文章总结一下各个方法及实际案例。tokenize的目标是把输入的文本流，切分成一个个子串，每个子串相对有完整的语义，便于学习embedding表达和后续模型的使用。tokenize有三种粒度：word/subword/char。

如何计算给定一个unigram语言模型_N-Gram语言模型初探

weixin_28913879的博客

12-30

840

语言模型(Language Model,LM)在自然语言处理中占有十分重要的地位，尤其在基于统计的语音识别、机器翻译、分词和 query纠错等相关应用中有着广泛的应用。目前主要采用的是 n 元语法模型(n-gram model)。笔者在工作用中应用到了 query改写和 query 的纠错，均起到了不错的应用效果，本文将从一下几点介绍 n-gram 语言模型。n-gram 语言模型基本概念n-gr...

NLP:Python 实现unigram（一元组）和bigram（二元组）

qq_43552032的博客

07-05

2635

python实现一元二元语法模型

主题模型TopicModel：Unigram、LSA、PLSA模型

chuange6363的博客

08-14

155

http://blog.csdn.net/pipisorry/article/details/42560693 主题模型历史 Papadimitriou、Raghavan、Tamaki和Vempala在1998年发表的一篇论文中提出了潜在语义索引。1999年，Thomas Hofmann又...

语言模型 python实现uni-gram和bi-gram 使用ppl困惑度对比模型效果山东大学2019 NLP实验1

qq_42813323的博客

03-13

9252

语言模型实验目的实验内容数据集Example: （每行数据是一段对话，句子间用__eou__分隔）实验环境欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图...

laravel 分词搜索匹配度_自然语言处理入门之分词

weixin_39518530的博客

11-23

433

引言分词是自然语言处理中的基本操作，今天我们就来看一下常用的分词算法及实现。最大匹配算法所谓的最大匹配指的是匹配最长的单词，通常会指定一个最大长度。根据搜索顺序的不同，主要有前向最大匹配算法、后向最大匹配算法、双向匹配算法。前向最大匹配算法所有的分词算法都是基于词典的，假设我们要分词的句子为"我爱北京天安门"，词典如下：word_dic = ['我','爱','北京天安门','北京','...

机器翻译自动评估-BLEU算法详解