N元语法是指 由几个连续的词组成的子序列。
①.比起用单个词作特征,使用N元语法能更好地描述文档.
②.N元语法的计算方法跟计算单个词语相同,把构成N元语法的几个词看成是词袋中 的1个词。
注:N元语法中的参数n,对于英语这门语言,一开始取2到5之间的值就可以, 有些应用可能要使用更高的值。
例:当n取3时,我们从下面引文中抽取前几个N元语法
Always look on the bright side of life.
第一个N元语法(三元)是Always look on,第二个是look on the,第三个是on the bright。你 可能已经发现,几个N元语法有重合,其中三个词有不同程度的重复。
1.优点:N元语法比起单个词有很多优点。这个简单的概念不用通过大量的计算,就提供了有助于理 解词语用法的上下文信息。
2. 缺点:它的缺点是特征矩阵变得更为稀疏——一个N元语法不太可能出现两 次(短文本中!)。
对于社会媒体所产生的内容以及其他短文档,N元语法不可能出现在多篇不同的文档中,除 非是转发。然而,在长文档中,N元语法就很有效。
文档的另外一种N元语法关注的不是一组词而是一组字符(虽然字符N元语法①有多种计算方 法!)。字符N元语法有助于发现拼写错误。
-----整理自《数据挖掘入门与实践》