Good-turning估计

最新推荐文章于 2021-11-23 22:51:09 发布

zhzhzhi

最新推荐文章于 2021-11-23 22:51:09 发布

阅读量3.5k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_33232071/article/details/51050388

版权

机器学习专栏收录该内容

25 篇文章

订阅专栏

本文介绍了一种解决统计预言模型中数据稀疏问题的方法——古德图灵估计。通过重新分配概率质量给未出现过的词汇，使得模型更加平滑，并有效地降低了数据稀疏度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

吴军数学之美又看了一遍，写的有深有浅，比如这次，有不同的感觉。

统计预言模型的数据稀疏问题解决方案–古德图灵估计
接上
这里引入Good-turning估计
Good-turning的主要思想是从概率的总量中分配少量的比例给零概率项。
假定在语料库中出现 $r$ 次数的词有 $N_r$ 个，则有

N = \sum r = 1 \infty r N r

$N = \sum_{r=1}^{\infty}rN_r$
当

r $r$ 较小时，我们使用

dr $d_r$ 代替

r $r$ ,这里

dr<r $d_r<r$ ,

dr $d_r$ 的值可由下式表示

d r = ( r + 1 ) N r + 1 N r

$d_r = \frac{(r+1)N_r+1}{N_r}$
这样可以保证

N = \sum r d r N r

$N = \sum_rd_rN_r$
这里我们考虑一个经验，一般来说

r $r$ 越大，词的数量

Nr $N_r$ 就越小,即验证了上述

dr<r $d_r<r$ 且

d0>0 $d_0>0$ .这样的代替可以让数据稀疏度有效的降低，所有词的概率估计会看起来很平滑。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

zhzhzhi

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

1.3 n-gram平滑算法：Good-Turning、拉普拉斯平滑

炫云云

06-12

1714

文章目录为什么需要平滑操作拉普拉斯平滑Add-one smoothingadd-k Smoothinggood-turning smooth问题Good-Turning示例python参考为什么需要平滑操作假设有一个预料集我喜欢喝奶茶我喜欢吃巧克力我喜欢健身天啦撸，一起同过窗要出第三季了这个时候要计算“我喜欢喝咖啡”的概率假设我们用bi-gram模型来计算，也就是说　　P(我喜欢喝咖啡)=P(我)P(喜欢∣我)P(喝∣喜欢)P(咖啡∣喝)=(3/16)∗(1)∗(1

Good-Turing、Absolute、kneser-ney smooth

qq_39492317的博客

11-05

1175

###Good-Turing smoothing Good-Turing基本思想是：用观察计数较高的N元语法数重新估计概率量的大小，并把它指派给那些具有零计数或者较低计数的N元语法。公式: c∗=(c+1)Nc+1Ncc^* = \frac{(c+1)N_{c+1}}{N_c}c∗=Nc(c+1)Nc+1 其中c为某个N-gram出现的频数,NcN_cNc为出现次数为c的N-Gram的词...

参与评论您还未登录，请先登录后发表或查看评论

古德图灵估计（Good-Turing Estimation)

weixin_42272768的博客

05-03

3683

古德-图灵估计最早发表于1953年。其核心思想是用r取代原始的r。举例说明如下：假设有单词组“the the the big big dog”，其中the出现3次，big出现2次，dog出现1次。正常的情况下计算单词出现的频次只需要用单词出现的次数/总单词数。比如the的频次=3/6=0.5。但是如果考虑到未出现的单词，比如eat，算法上需要如何处理？古德-图灵算法将已经出现的单词的频次进行调整，将出现次数r定义为（r+1)*(出现r+1次单词的个数）/ （出现r次单词的个数）。通过计算可以得到新的频次

Good-Turning Smothing 学习

theowl13的博客

02-21

441

使用场景语言模型平滑化等公式没有出现过的单词出现的概率 Pmle=0P_{mle}=0Pmle=0 （mle的方式） Pgt=N1NP_{gt}=\frac{N_1}{N}Pgt=NN1 （good-turning的方式）出现过的单词出现的概率 Pmle=cNP_{mle}=\frac{c}{N}Pmle=Nc（mle的方式） Pgt=(c+1)Nc+1Nc×NP_{gt}=\frac{(c+1)N_{c+1}}{N_c\times N}Pgt=Nc×N(c+1)Nc+1

NLP-Good Turning平滑

Swayzzu的博客

11-17

2010

如何计算没有出现过的词，下一次出现的概率？

[NLP] 实例讲解 N-gram语言模型中 Good-Turning 平滑技术

江南蜡笔小新

11-23

4121

1.背景最近在阅读论文的时候接触到了古德-图灵估计法，感觉比较模糊不清，进一步查阅了一些资料，希望有一个自己的直观理解。 …本论文采用的是古德-图灵估计法，其基本思想是对于任意出现r次的n元语法对，都假设它出现了r*次，即降低高概率的n元语法对，提高低概率的n元语法对… 1.1 为什么要用平滑技术？通常来讲，我们认为N-gram模型是一个无监督模型，具有非常大的语料库。然而，语料库再大，也会出现未知的N元对。以bigram为例，p(鼠标|弃飞)，语料库再大这个p(鼠标|弃飞)也该等于0吧？天王老

Good-Turning Smoothing介绍及推理

简单随风的博客

02-23

4706

在介绍Good-Turning Smoothing之前，我们可以先看一个有趣的例子：假设你在钓鱼，已经抓到了18只鱼： 10条鲤鱼，3条黑鱼，2条刀鱼，1条鲨鱼，1条草鱼，1条鳗鱼… Q1：下一个钓到的鱼是鲨鱼的概率是多少？ Q2：下一条鱼是新鱼种（之前没有出现过）的概率是多少？ Q3：既然如此，重新想一下，下一条抓到鱼为鲨鱼的概率是多少？我们在看到Q1时，可以很简单的算出Q1结果为 1/18...

NLP(8): 专家系统和good turning smoothing

JJJJJJames的博客

02-08

438

第一节：Good-Turning Smoothing NcN_cNc:出现c次的单词的个数 N3N_3N3: 有多少个单词出现三次考虑新的物种，将下一次出现的概率的部分给其他新的物种，所以对于已经有的物种下一次出现的概率会小于mle得估计。缺点：在原数据上出现21次的下一个的概率需要出现22次得单词的个数。但有可能统计不出22次的内容。且不一定有单词出现22次。第二节：利用语言模型生成句子语言模型是一个生成模型通过模型可以生成一些新的数据：图片，音乐，文本 1、unigram mode

任务描述本关任务：实现二元语言模型的数据平滑，并利用平滑后的数据计算句子概率。相关知识为了完成本关任务，你需要掌握：1.模型平滑化。2.good-turning平滑。模型平滑在使用语言模型直接计算某个句子出现的概率时，可能会由于某个单词或单词对出现的概率为0而导致整个句子出现的概率为0。例如下面这个场景：在上面的场景中，由于部分单词对出现的概率为0，导致最终两句话出现的概率均为0。但实际上，s1=“今天没有训练营”比s2=“今天训练营没有”更符合语法习惯，我们也更希望计算出来的P(s1)大于P(s2)。一般来说，语言模型的平滑处理可分为以下三类： Discounting（折扣）：通过给概率不为0的项打折扣，来提高概率为0的项的概率； Interpolation（插值）：在使用N-gram模型计算某一项的概率时，同时结合低阶的模型所计算出的概率； Back‐off：approximate counts of unobserved N‐gram based on the proportion of back‐off events (e.g., N‐1 gram)。这里我们主要介绍与使用Discounting中的good-turning平滑方法。 good-turning平滑 Good-Turing技术是在1953年由古德（I.J.Good）引用图灵（Turing）的方法而提出来的，其基本思想是：用观察计数较高的N元语法数重新估计概率量的大小，并把它指派给那些具有零计数或者较低计数的N元语法。涉及的符号含义为: c：某个N元语法出现的频数。 Nc：出现次数为c的 N-gram 词组的个数，是频数的频数 c*：Good-Turing平滑计数设N为测试元组集合中元组的数目，则有如下公式：通过新频数可计算出经过good-turing平滑后的元组概率，公式如下：编程要求根据提示，在右侧编辑器补充代码，编写平滑函数，计算句子的概率测试说明平台会对你编写的代码进行测试：语料库：研究生物很有意思。他大学时代是研究生物的。生物专业是他的首选目标。他是研究生。测试输入：他是研究物理的预期输出：5.6888888888888895e-05 开始你的任务吧，祝你成功！ import jieba #语料句子 sentence_ori="研究生物很有意思。他大学时代是研究生物的。生物专业是他的首选目标。他是研究生。" #测试句子 sentence_test=input() #任务：编写平滑函数完成数据平滑，利用平滑数据完成对2-gram模型的建立，计算测试句子概率并输出结果 # ********** Begin *********# # ********** End **********#

最新发布

03-29

数据平滑部分，Good-Turing的方法需要统计每个频率r出现的次数Nr，然后用(r+1)*Nr+1/Nr来估计调整后的频率。不过实际操作中可能需要处理很多边缘情况，比如当r+1的Nr+1不存在的时候怎么办。可能需要使用一些插值或者...

Good Turing Smoothing

yinxusen的专栏

09-23

2382

srilm语言模型中的平滑算法——Good-Turing平滑算法

vincent1y的博客

08-10

8624

最近使用使用python自己写的语言模型和srilm得到的语言模型做对比，srilm里还是有很多trick的，尤其是平滑算法，集成了很多数据平滑算法，研究的时候，记录一下。在srilm中有回退和差值两类平滑算法，简单来说，回退就是将出现过的ngram的概率打个折扣，将那部分折扣下来的概率均摊为未出现的ngram作为他们的概率，而插值呢，一样是对出现过的ngram打折扣，但是折扣下来的概率值均摊...

N元语法模型的数据稀疏问题解决方法之一：Good-Turing平滑

约定的博客

03-10

1780

转载自时空霹雳在统计语言模型章节中，我们谈到了N元语法模型不可避免的一个问题，就是数据稀疏，其原因是大规模语料统计与有限语料的矛盾。根据齐普夫（Zipf）法则，我们能够推测知零概率问题不可避免。数据稀疏问题的解决办法就是进行平滑处理。平滑处理的算法有很多，本文将介绍众多算法中的佼佼者：古德-图灵（Good-Tu

RL策略梯度方法之(二): Actor-Critic算法

qq_38293297的博客

09-22

2549

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析策略梯度的直观解释Actor-Critic框架引出GAE算法实现算法流程代码实现原理解析 AC算法框架被广泛应用于实际强化学习算法中，该框架集成了值函数估计算法和策略搜索算法，是解决实际问题时最常考虑的框架。 AC算法起源于策略梯度算法，因此在介绍AC算法时，我们先从策略梯度入手。（其实上篇已经介绍

good-turing平滑方法评价_音质标准与音质评价的方法

weixin_29948389的博客

12-12

337

所谓声音的质量，是指经传输、处理后音频信号的保真度。目前，业界公认的声音质量标准分为4级，即数字激光唱盘CD-DA质量，其信号带宽为10Hz~20kHz；调频广播FM质量，其信号带宽为20Hz~15kHz；调幅广播AM质量，其信号带宽为50Hz~7kHz；电话的话音质量，其信号带宽为200Hz~3400Hz。可见，数字激光唱盘的声音质量最高，电话的话音质量最低。除了频率范围外，人们往往还用其它方法...

自然语言处理期末复习（1）n元模型

康雨城

06-17

3109

一、n元模型1.语言建模：根据给定的语言样本估计概率P(s)的过程2.语言模型：根据语言样本估计出的概率分布P称为语言L的语言模型。3.马尔科夫假设：词wi 的出现只与其前n-1个词有关4.n元组（n-gram）：只需要考虑n个词组成的片段。（n越大,模型需要的参数越多,历史信息越多，模型越准确）5.如何建立n元模型：确定训练语料、对预料进行分词、句子边界标记，增加两个特殊词。建立n元模型的方法：...

NLP基础：语言模型

weikai_w的博客

01-07

2296

什么是语言模型语言模型旨在为语句的联合概率函数建模，是用来计算一个句子概率的模型，对有意义的句子赋予大概率，对没有意义的句子赋予小概率，也就是用来判断一句话是否是人话的概念。这样的模型可以用于NLP中的很多任务，如机器翻译、语音识别、信息检索、词性标注以及手写识别等。语言模型考虑两个方面的子任务（以“How long is a football game?”为例）：句子中的词序：“How l...

数学之美第二版读书笔记

weixin_43433969的博客

05-13

442

第三章对古德-图灵估计公式的理解：当出现otherwise的情况时：对Q（w（i-1））公式中的f(wi)的求和是指对所有发现语料库中的未知词语的概率求和，而p(wi|w(i-1))中的f(wi)是指该单个未知词的个数概率。知乎有一个评论应该有助于理解：古德-图灵公式其中zero函数中wi代表着公式中的w（i-1），wj代表着公式中的wi；第三行的word_j即为word_i_j向右...

NLP学习笔记14-语言模型(下)

bohu83的博客

01-25

612

一序本文属于贪心NLP 学习笔记系列。今天开始，明显的数学概念多了起来。二unigram 不考虑单词之间的顺序，依赖于马尔科夫假设。假设w1,w2,...wn是相互独立的：一个事件的发生与否，不会影响另外一个事件的发生。而P(w1)、P(w2).....P(wn)的计算方法如下：统计语料库中某个单词出现的次数，再除以语料库的总词数。缺点：单词相互独立，所以语义上不通顺的跟通顺的概率一样，不能很好的区分。三 bigram(基于1st order markov as...

fine-turning

12-27

### 微调的概念微调是指利用针对性的小规模、有标签的数据集，调整模型参数以使其更好地适应并精准完成特定任务，如文本分类、问答、机器翻译、情感分析等[^2]。 ### 应用场景微调广泛应用于自然语言处理领域内的各种具体任务。例如，在文本分类中，经过微调后的模型能够更精确地区分不同类别的文档；在问答系统里，则可以提高对于问题理解以及答案提取的能力；而在机器翻译方面，也能增强目标语言表达准确性。 ### 方法概述 #### 预训练阶段首先，使用大规模的数据集对模型进行预训练，使模型学习到通用的语言特征和知识[^3]。 #### 任务特定数据集准备接着，准备一个与目标任务相关的数据集，这个数据集通常比预训练使用的数据集小得多。 #### 模型调整在此基础上，根据新任务的需求进行必要的结构调整，比如添加新的层（如分类层）、修改输出层等。 #### 微调训练随后，采用任务特定数据集对模型实施进一步的训练过程——即所谓的“微调”。此过程中会运用反向传播算法来优化那些已经由预训练获得的知识表示，使之更加贴合当前的具体需求。 ```python import torch from transformers import BertForSequenceClassification, Trainer, TrainingArguments model = BertForSequenceClassification.from_pretrained('bert-base-uncased') training_args = TrainingArguments( output_dir='./results', num_train_epochs=3, per_device_train_batch_size=8, ) trainer = Trainer( model=model, args=training_args, train_dataset=train_dataset, eval_dataset=val_dataset ) trainer.train() ``` #### 评估与迭代最后一步是在验证集上测试模型表现，并依据反馈不断改进直至达到满意效果为止。