自然语言处理（二）： N-gram Language Models

小羊和小何

已于 2023-03-12 19:22:35 修改

阅读量372

点赞数

分类专栏： NLP自然语言处理文章标签：自然语言处理语言模型人工智能

于 2023-03-12 15:25:05 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Abner98414/article/details/129475445

版权

NLP自然语言处理专栏收录该内容

6 篇文章 0 订阅

订阅专栏

目录

1. Probabilities: Joint to Conditional 概率：从联合到条件

1.1 The Markov Assumption 马尔可夫假设

1.2 Maximum Likelihood Estimation 最大似然估计

1.3 Book-ending Sequences 书籍结尾序列

1.4 Trigram example

1.5 Several Problems

2.1 Laplacian (Add-one) Smoothing

2.2 Add-k Smoothing

2.3 Lidstone Smoothing

2.4 Absolute Discounting

2.6 Kneser-Ney Smoothing

2.7 Interpolation

2.8 Interpolated Kneser-Ney Smoothing

3. Generating Language

3.2 Generation (Bigram LM)

3.3 How to Select Next Word?

4. A Final Word

如今，预训练的语言模型是现代NLP系统的骨干

1. Probabilities: Joint to Conditional 概率：从联合到条件

我们的目标是得到一个任意的m个词的序列的概率

第一步是应用链式规则，将联合概率转换为条件概率

1.1 The Markov Assumption 马尔可夫假设

还是很棘手，所以做一个简单的假设：

1.2 Maximum Likelihood Estimation 最大似然估计

我们如何计算概率？根据语料库中的计数进行估计：

1.3 Book-ending Sequences 书籍结尾序列

用于表示序列的开始和结束的特殊标记

<s> = sentence start
</s> = sentence end

1.4 Trigram example

1.5 Several Problems

语言具有长距离效应ー需要大的 n
- 上周的讲座是关于预处理的。
由此产生的可能性通常非常小
- 使用对数概率来避免数值底流
那看不见的文字呢？
- 表示它们的特殊符号（例如 < UNK >）
Unseen n-grams?
- 需要平滑 LM！

2. Smoothing

基本思路：给出一些你以前从未见过的可能性
必须是 P (everything) = 1
Many different kinds of smoothing
- Laplacian (add-one) smoothing
- Add-k smoothing
- Absolute discounting
- Kneser-Ney
- And others…

2.1 Laplacian (Add-one) Smoothing

简单的想法：假装我们已经看到了每个 n-gram 比我们多一次。

2.2 Add-k Smoothing

加一往往是太多了
相反，添加一个分数 K
又称利德斯通平滑法
需要选择一个合适的 K

2.3 Lidstone Smoothing

2.4 Absolute Discounting

从观察到的 n 克计数中借用一个固定的概率质量
将其重新分布为不可见的 n-gram

2.5 Backoff

对于所有看不见的 n 克，绝对贴现重新分配概率质量
Katz Backoff: 基于低阶模型（例如 unigram）重新分配质量

2.6 Kneser-Ney Smoothing

根据低阶 n-gram 的通用性重新分配概率质量
AKA "continuation probability"
What is versatility?
- 高通用性 -> 与许多独特的单词同时出现 e.g. glasses - men’s glasses, black glasses, buy glasses, etc
- 通用性低 -> 与几个独特的单词同时出现，e.g. francisco - san francisco

Intuitively the numerator of Pcont counts the number of unique wi-1 that co-occurs with wi
High continuation counts for glasses
Low continuation counts for Franciso

2.7 Interpolation

一种更好的方法来组合不同顺序的 n-gram 模型
越来越短的上下文中概率的加权和
Interpolated trigram model 内插三元模型：

2.8 Interpolated Kneser-Ney Smoothing

插值代替后退

3. Generating Language

3.1 Generation

给定一个初始单词，根据语言模型产生的概率分布绘制下一个单词
为 n-gram 模型包含 (n-1) <s> 标记，以提供上下文来生成第一个单词
- 永远不要生成 <s>
- 生成 </s> 终止序列

3.2 Generation (Bigram LM)

3.3 How to Select Next Word?

Argmax：每回合获得概率最高的单词
- 贪婪搜索
光束搜索解码 :
- 每轮跟踪前 N 个概率最高的单词
- 选择能产生最佳句子概率的单词顺序
从分布中随机抽取样本

4. A Final Word

N-gram 语言模型是一个简单而有效的方法来捕捉语言的可预测性
可以在无监督的情况下进行培训，可扩展到大型语料库
需要平滑才能有效
现代语言模型使用神经网络

小羊和小何

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理（二）： N-gram Language Models

如今，预训练的语言模型是现代NLP系统的骨干。
复制链接

扫一扫

专栏目录

小羊和小何 CSDN认证博客专家 CSDN认证企业博客

码龄6年

123: 原创

5万+: 周排名

217万+: 总排名

20万+: 访问

: 等级

1395: 积分

479: 粉丝

123: 获赞

13: 评论

698: 收藏

私信

关注

热门文章

分类专栏

最新评论

机器学习基础：模型评估（上）
HKEason: 请问一下博主，有没有相关将类别覆盖文献的检索关键词呀，如能告知感激不尽
机器学习基础：神经网络——感知机
xuxiulive: 写的贼拉好，赞赞赞！
Lecture 22 Ethics
CSDN-Ada助手: 恭喜你，获得了 2023 博客之星评选的入围资格，请看这个帖子（https://bbs.csdn.net/topics/615728360?utm_source=blogger_star_comment）。请在这里提供反馈： https://blogdev.blog.csdn.net/article/details/129986459?utm_source=blogger_star_comment。
复杂系统学习（九）：Petri Nets I：基础
OakkKkKWCX: 假设外部的硬币是无限的，可以通过insert coin从state a进入state b ，再通过return coin 回到 state a。
人工智能学习（六）：约束满足问题（下）
ycslynb: 求逻辑这章的笔记！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。