n-gram

最新推荐文章于 2022-02-08 17:17:51 发布

Johnson0722

最新推荐文章于 2022-02-08 17:17:51 发布

阅读量996

点赞数

分类专栏： NLP 文章标签：自然语言处理中文分词

NLP 专栏收录该内容

19 篇文章 3 订阅

订阅专栏

4.7 N元分词方法

在介绍N元模型之前，让我们先来做个香农游戏（Shannon Game）。我们给定一个词，然后猜测下一个词是什么。当我说"NBA"这个词时，你想到下一个词是什么呢？我想大家有可能会想到"篮球"，基本上不会有人想到"足球"吧。

切分出来的词序列越通顺，越有可能是正确的切分方案。N元模型主要用来衡量词序列搭配的合理性。N元模型指句子中在n个单词序列后出现的单词w的概率。

但是这种方法存在两个致命缺陷：一个缺陷是参数空间过大，不可能实用化；另外一个缺陷是数据稀疏严重。为了解决这两个问题，我们引入了马尔科夫假设：一个词的出现仅仅依赖于它前面出现的有限的一个或者几个词。

如果简化成一个词的出现仅仅依赖于它前面出现的一个词，那么就称为二元模型（Bigram），即：

如果简化成一个词的出现仅仅依赖于它前面出现的两个词，就称为三元模型（Trigram）。

在实践中用得最多的就是二元模型和三元模型了，而且效果很不错。高于四元的模型用得很少，因为训练它需要更庞大的语料，而且数据稀疏严重，时间复杂度高，精度却提高得不多。

二元模型考虑一个单词后出现另外一个单词的概率，是N元模型中的一种。例如：一般来说，"中国"之后出现"北京"的概率大于"中国"之后出现"北海"的概率，也就是：

二元词表的格式是"左词@右词:组合频率"，例如：

 
 中国@北京:100  
中国@北海:1

可以把二元词表看成是基本词表的常用搭配。分词初始化时，先加载基本词表，对每个词编号，然后加载二元词表，只存储词的编号。

对于拼音转换等歧义较多的情况也可以采用三元模型（Trigram），例如：

因为有些词作为开始词的可能性比较大，例如"在那遥远的地方"、"在很久以前"，这两个短语都以"在"这个词作为开始词。因此，在实际的N元分词过程中，增加虚拟的开始节点（Start）和结束节点（End），分词过程中考虑P（在|Start）。如果把"有意见分歧"当成一个完整的输入，分词结果实际是："Start/ 有/ 意见/ 分歧/ End"。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
n-gram

4.7 N元分词方法在介绍N元模型之前，让我们先来做个香农游戏（Shannon Game）。我们给定一个词，然后猜测下一个词是什么。当我说"NBA"这个词时，你想到下一个词是什么呢？我想大家有可能会想到"篮球"，基本上不会有人想到"足球"吧。切分出来的词序列越通顺，越有可能是正确的切分方案。N元模型主要用来衡量词序列搭配的合理性。N元模型指句子中在n个单词序列后出现的单词w的概率
复制链接

扫一扫

专栏目录

Johnson0722 CSDN认证博客专家 CSDN认证企业博客

码龄8年

108: 原创

3万+: 周排名

187万+: 总排名

74万+: 访问

: 等级

5960: 积分

456: 粉丝

413: 获赞

222: 评论

1458: 收藏

私信

关注

热门文章

分类专栏

数理统计 1篇
深度学习 6篇
机器学习 16篇
推荐算法 3篇
python 31篇
NLP 19篇
Cython 6篇
TensorFlow 4篇
算法与数据结构 5篇
Linux 5篇
爬虫 1篇
C++ 5篇
数据库 2篇
前端 1篇
Spark 6篇
技术工具 4篇
面试 5篇
Finance & Economics 4篇
读书笔记 3篇

最新评论

机器学习/深度学习算法学习心得
一只努力学习的: 你好，我也是这个方向的，可以分享一下cs224d的学习视频吗
使用xgboost进行特征选择
King_阿龟: 请问有数据吗
Cython基础教程(一) - 基本概念介绍
sinat_35936124: 1000位肥波数早超出c精度了，这样对比的了吗
遗传算法原理及其python实现
yxx0719: 楼主，在创建类时，for i in range(num_epoch): population = self.decode(chroms) fitness = self.fitness_function(population) fitness = fitness - fitness.min() + 1e-4 if np.max(fitness) > np.max(best_finess): best_finess = fitness best_population = population chroms = self.encode(self.init_population) selected_chroms = self.selection(chroms, fitness) chroms = self.encode(self.init_population)这个代码应该删除吧，不然每次都是选择了初始化种群，没有意义
遗传算法原理及其python实现
yxx0719: 楼主为啥是 np.array([chroms[np.where(probs_cum > rand)[0][0]] for rand in each_rand])，两个都是0，那好像where这个函数就没啥意义了？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。