语言模型——n元语法模型

最新推荐文章于 2022-04-16 21:22:39 发布

紫砂痕

最新推荐文章于 2022-04-16 21:22:39 发布

阅读量4.4k

点赞数 3

分类专栏： NLP 文章标签：语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36047533/article/details/88203606

版权

NLP 专栏收录该内容

13 篇文章 1 订阅

订阅专栏

语言模型：n元语法模型

1. 概念
2. 类型：
- 2.1 unigram model
- 2.2 bigram model
3. unigram、bigram频率统计；
参考链接：

1. 概念

N-Gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作，形成了长度是N的字节片段序列。

每一个字节片段称为gram，对所有gram的出现频度进行统计，并且按照事先设定好的阈值进行过滤，形成关键gram列表，也就是这个文本的向量特征空间，列表中的每一种gram就是一个特征向量维度

2. 类型：

（1）一元模型（unigram model)：把句子分成一个一个的汉字
（2）二元模型（bigram model)：把句子从头到尾每两个字组成一个词语
（3）三元语法模型（Trigram model）：把句子从头到尾每三个字组成一个词语.

2.1 unigram model

当 n=1时，是一元模型，即为：在这里插入图片描述

2.2 bigram model

当 n=2时, 是二元模型，即为：
在这里插入图片描述
(3) 三元语法模型（Trigram language model）

3. unigram、bigram频率统计；

使用Python中的collections.Counter模块实现

https://blog.csdn.net/u011955252/article/details/52045392

还需补充很多内容。。。

参考链接：

https://blog.csdn.net/CoderPai/article/details/80403897
https://blog.csdn.net/u011955252/article/details/52045392
https://zhuanlan.zhihu.com/p/32829048

关注

3
点赞
踩
12

收藏

觉得还不错? 一键收藏
1
评论
语言模型——n元语法模型

语言模型：n元语法模型1. 概念2. 类型：2.1 unigram model2.2 bigram model3. unigram、bigram频率统计；参考链接：1. 概念N-Gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作，形成了长度是N的字节片段序列。每一个字节片段称为gram，对所有gram的出现频度进行统计，并且按照事先设定好的...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。