语言模型之n-gram模型笔记

最新推荐文章于 2024-07-27 12:20:46 发布

weixin_34273046

最新推荐文章于 2024-07-27 12:20:46 发布

阅读量150

点赞数

文章标签： python 人工智能数据结构与算法

原文链接：https://my.oschina.net/xiaoluobutou/blog/678163

版权

2019独角兽企业重金招聘Python工程师标准>>>

1、语言模型

语言模型是用来计算一个句子的概率的概率模型，它通常基于一个语料库来构建，那一个句子的概率该怎么算呢？

给定一个N个词的字符串S，即S={W1,W2,...Wn}，Wn代表这个句子中的每个词，则该句子的概率是：

P(s)=P(w1,w2,...wn)=P(w1)*P(w2|w1)*...P(wn|w1,w2,w3,...wn-1)

该概率的意义是：第一个词确定后，看后面的词在前面的词出现的情况下出现的概率。比如句子“I want to eat Chinese food” 这句话的概率就是：

P(I want to eat Chinese food) = P(I) * P(want|I) * P(to|I,want) * P(eat|I,want,to) * P(Chinese|I,wnat,to,eat) * P(food|I,want,to,eat,Chinese)

P（I）表示"I"这个词在语料库里出现的概率

P（want|I）表示"want"词出现在"I"后面在语料库中的概率

....

把这些概率连乘起来，就得到的就是这句话在语料库中的概率，但是这样计算会出很多问题，参数空间过大，信息矩阵严重稀疏

有一些方法来优化该概率的计算：n-gram模型、决策树、最大熵模型、最大熵马尔科夫模型、条件随机场、神经网络等

2、n-gran模型

转载于:https://my.oschina.net/xiaoluobutou/blog/678163

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_34273046

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
语言模型之n-gram模型笔记

2019独角兽企业重金招聘Python工程师标准>>> ...
复制链接

扫一扫

（一）ngram 模型

CoderPai的博客

01-22

1754

作者：chen_h 微信号 & QQ：862251340 微信公众号：coderpai （一）ngram 模型 N-gram 模型是一种语言模型（Language Model，LM），语言模型是一个基于概率的判别模型，它的输入是一句话（单词的顺序序列），输出是这句话的概率，即这些单词的联合概率（joint probability）。 N-gram 本身也指一个由N个单词组成的集合，各单...

探索 GRAN：一个高效、灵活的生成式对抗网络框架

gitblog_00094的博客

04-19

362

探索 GRAN：一个高效、灵活的生成式对抗网络框架项目地址:https://gitcode.com/lrjconan/GRAN 在机器学习领域，生成式对抗网络（Generative Adversarial Networks, GANs）已经成为了一种强大的工具，用于图像合成、文本生成和数据增强等任务。今天，我们向您推荐一个开源的GAN框架——GRAN（Generative Regression...

参与评论您还未登录，请先登录后发表或查看评论

standford NLP课程笔记无 语言模型

snowswallowhe的博客

06-12

2109

语言模型的目的是给句子计算概率。为什么要计算句子的概率呢？这在多个领域都有作用。比如在机器翻译领域（machine translation），可以用来区分哪个翻译好，哪个翻译不好，如P(high winds tonite) > P(large winds tonite) 在拼写矫正领域（spell correction），可以用来矫正错误的拼写，如 the office is about

语言模型系列之N-Gram、NPLM及Word2vec

TiffanyRabbit的博客

05-23

1万+

上一篇博客简单梳理了NLP的技术架构、NLP语言模型的演化，以及最基本的语言模型Bag-of-Word词袋模型及基于词袋模型的重要模型和算法。本文将继续探讨NLP中重要的语言模型N-Gram语言模型，并探究其变形NPLM、CBOW及衍生物Word2vec。

N-gram统计语言模型(总结)

辉

11-18

1万+

自然语言从它产生开始，逐渐演变成一种上下文相关的信息表达和传递的方式，因此让计算机处理自然语言，一个基本的问题就是为自然语言这种上下文相关特性建立数学模型。这个数学模型就是自然语言处理中常说的统计语言模型，它是今天所有自然语言处理的基础，并且广泛应用与机器翻译、语音识别、印刷体和手写体识别、拼写纠错、汉字输入和文献查询。

语言模型-Ngram

lm709409753的专栏

05-17

3778

总结工作中用到和学习的知识，也算自己的一个笔记。 语言模型 语言模型简单来讲，就是计算一个句子的概率，更确切的说是计算组成这个句子一系列词语的概率。举个简单的例子，我们知道“武松打死了老虎”相比于“老虎了死武松打”，更像是一句正常的话，这是因为前者出现的概率更高。对一句话而言，它的概率举个简单的邮件分类例子，对于垃圾邮件中...

语言模型：Trigram 语言模型

chuange6363的博客

09-10

1129

该系列将描述一些自然语言处理方面的技术，完整目录请点击这里。有很多种定义语言模型的方式，在这里我们将重点介绍一种特别重要的方式，即三元语言模型（Trigram language model）。这将是根据上一节中关于马尔科夫模型的最直接的一个应用。在这一部分中，我们将给出三元语言模型...

自然语言处理-基于预训练模型的方法-笔记

09-01

NLP_tokenization_NGrams:分配3和4的存储库。令牌化和N-Gram模型

04-15

NLP中的标记化和构建N-Gram模型该项目涉及创建一个标记化器形式的草稿，该标记器用于对自然语言处理中常见的词素（例如单词，名称，URL，标点，货币等）进行标记化。在要标记化的文本中，通常会忽略空格。然后，...

斯坦福CS224n_自然语言处理与深度学习_笔记

07-15

1. **词嵌入**：词嵌入是将词汇转换为连续向量的过程，如Word2Vec的CBOW和Skip-gram模型。这些向量捕获了词汇之间的语义和语法关系，是许多NLP任务的基础。 2. **循环神经网络（RNN）**：RNN是处理序列数据的理想...

NLP教程(5) - 语言模型、RNN、GRU与LSTM.doc

07-09

本篇笔记对应斯坦福CS224n自然语言处理专项课程的知识板块：语言模型、循环神经网络RNN、变种RNN（LSTM、GRU等）。以下是对应的知识点： 1. 语言模型 语言模型计算特定序列中多个单词以一定顺序出现的概率。语言...

python爬虫案例tention-model-for-n开发笔记

06-19

在本项目中，"python爬虫案例tention-model-for-n开发笔记" 主要涉及的是使用Python编程语言进行网络数据抓取（爬虫）以及利用深度学习模型，特别是卷积神经网络（CNN）与双向长短期记忆网络（Bi-LSTM）结合注意力...

【转】统计模型-n元文法

weixin_30525825的博客

04-06

101

在谈N-Gram模型之前，我们先来看一下Mrkove假设：　　1.一个词的出现仅仅依赖于它前面出现的有限的一个或者几个词；　　2.一个词出现的概率条件地依赖于前N-1个词的词类。定义　　N-Gram是大词汇连续语音识别中常用的一种语言模型，对中文而言，我们称之为汉语语言模型（CLM，ChineseLanguageModel）。汉语语言模型利用上下文中相邻词之间的搭配信息，在需要...

GRAN论文翻译

qq_25220145的博客

04-25

587

GRAN论文翻译GRAN论文链接注意：该翻译只是一部分，需要和原文对照着看，只是起到辅助的效果。part one摘要 Gatys等人（2015）提出，优化像素以匹配卷积网络中的特征是渲染高视觉质量图像的一种方式。展开这种基于梯度的优化可以被认为是一种循环计算，通过逐渐添加到视觉“画布”上创建图像。在这种观点的启发下，我们提出可以通过对抗性训练进行训练的循环生成模型。为了定量比较对抗网络，

N-gran笔记

luolingzhichen的博客

05-05

630

N-gram是根据先验知识(已有语料库)预计或者评估一个句子是否合理的语言模型。比如下例，猜测下一个字可能是什么我今天要去上... 根据我们的先验知识，下一个子可能会是“课”，“学”，或者是“班”，而不太可能是“盘”，“房”之类的字。如何量化并预测这种可能性就是N-gram语言模型需要做的事情。算法推导首先有假设，第n个字的决定与第前n-1个字有关。这个假设应该很好理解，因为刚...

从n-gram中文文本纠错，到依存树中文语法纠错以及同义词查找

weixin_33851177的博客

10-13

1487

为什么80%的码农都做不了架构师？>>> ...

N-gram介绍

guohui_0907的博客

05-20

2201

1、简介 N-gram是一种基于统计的语言模型，常常用来做句子相似度比较，句子合理性判断。（语言模型就是用来计算一个句子的概率的模型，也就是判断一句话是否合理的概率，RNN是神经语言模型） N-Gram是基于一个假设：第n个词出现的概率与前n-1个词相关，而与其他任何词不相关。因此整个句子出现的概率就等于各个词出现的概率的乘积。各个词的概率可以通过语料中统计得到。假设句子TTT是有词序列w1,w2...

自然语言处理中的N-Gram模型详解

语言模型之n-gram模型 笔记

1、语言模型

2、n-gran模型

语言模型之n-gram模型笔记