N-gram提取特征

最新推荐文章于 2024-08-05 10:19:04 发布

baihaisheng

最新推荐文章于 2024-08-05 10:19:04 发布

阅读量1.7k

点赞数

分类专栏： NLP 文章标签：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41128383/article/details/106149976

版权

NLP 专栏收录该内容

88 篇文章 4 订阅

订阅专栏

什么是N-gram

N-Gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作，形成了长度是N的字节片段序列。

每一个字节片段称为gram，对所有gram的出现频度进行统计，并且按照事先设定好的阈值进行过滤，形成关键gram列表，也就是这个文本的向量特征空间，列表中的每一种gram就是一个特征向量维度。

该模型基于这样一种假设，第N个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram

在一些场景下由于语料数据集不是很多，为了提取更多的特征，这个时候可以考虑N-Gram，过程：以Bi-Gram为例，在原始文本中，以每个关键词作为一个特征，通过将关键词两两组合，得到一个Bi-Gram组合，再根据N-Gram语言模型，计算各个Bi-Gram组合的概率，作为新的特征。

二元Bi-gram
对于：“我去了北京海淀区工作”
抽取我去了/ 去了北京/ 北京海淀区/海淀区工作

三元Tri-gram
对于：“我去了北京海淀区工作”

抽取我去了北京/ 去了北京海淀区/北京海淀区工作

n-gram模型中n的大小对性能的影响

n更大的时候对下一个词出现的约束性信息更多，更大的辨别力，但是更稀疏

n更小的时候在训练语料库中出现的次数更多，更可靠的统计结果，更高的可靠性，但是约束信息更少。

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。