Task2-ngram

最新推荐文章于 2021-03-20 22:39:46 发布

just__we

最新推荐文章于 2021-03-20 22:39:46 发布

阅读量127

点赞数 1

分类专栏： nlp task2

本文链接：https://blog.csdn.net/weixin_43346864/article/details/90213420

版权

2 篇文章 0 订阅

订阅专栏

（1）、人们基于一定的语料库，可以利用N-Gram来预计或者评估一个句子是否合理。

（2）、另外一方面，N-Gram的另外一个作用是用来评估两个字符串之间的差异程度。这是模糊匹配中常用的一种手段。
1、N-gram在两个字符串的模糊匹配中的应用

首先需要介绍一个比较重要的概念：N-Gram距离。

（1）N-gram距离
它是表示，两个字符串s，t分别利用N-Gram语言模型来表示时，则对应N-gram子串中公共部分的长度就称之为N-Gram距离。例如：假设有字符串s，那么按照N-Gram方法得到N个分词组成的子字符串，其中相同的子字符串个数作为N-Gram距离计算的方式。具体如下所示：

字符串：s=“ABC”，对字符串进行分词，考虑字符串首尾的字符begin和end，得到begin，A，B，C，end。这里采用二元语言模型，则有：（begin,A）、（A,B）、（B,C）、（C,end）。

字符串：t=“AB”，对字符串进行分词，考虑字符串首尾的字符begin和end，得到begin，A，B，end。这里采用二元语言模型，则有：（begin,A）、（A,B）、（B,end）。

此时，若求字符串t与字符串s之间的距离可以用M-(N-Gram距离)=0。

然而，上面的N—gram距离表示的并不是很合理，他并没有考虑两个字符串的长度，所以在此基础上，有人提出非重复的N-gram距离，公式如下所示：

在这里插入图片描述
上面的字符串距离重新计算为：

4+3-2*3=1

2、N-Gram在判断句子有效性上的应用

假设有一个字符串s=“ABC”,则对应的BI-Gram的结果如下：（begin,A）、（A,B）、（B,C）、（C,end）。则对应的出现字符串s的概率为：

P(ABC)=P(A|begin)*P(B|A)*P(C|B)*P(end|C)。

3、N-Gram在特征工程中的应用

在处理文本特征的时候，通常一个关键词作为一个特征。这也许在一些场景下可能不够，需要进一步提取更多的特征，这个时候可以考虑N-Gram，思路如下：

以Bi-Gram为例，在原始文本中，以每个关键词作为一个特征，通过将关键词两两组合，得到一个Bi-Gram组合，再根据N-Gram语言模型，计算各个Bi-Gram组合的概率，作为新的特征。

关注

专栏目录