N元语法(简述)

N元语法是指 由几个连续的词组成的子序列。

①.比起用单个词作特征,使用N元语法能更好地描述文档.

②.N元语法的计算方法跟计算单个词语相同,把构成N元语法的几个词看成是词袋中 的1个词。

注:N元语法中的参数n,对于英语这门语言,一开始取2到5之间的值就可以, 有些应用可能要使用更高的值。

例:当n取3时,我们从下面引文中抽取前几个N元语法

Always look on the bright side of life.

第一个N元语法(三元)是Always look on,第二个是look on the,第三个是on the bright。你 可能已经发现,几个N元语法有重合,其中三个词有不同程度的重复。

1.优点:N元语法比起单个词有很多优点。这个简单的概念不用通过大量的计算,就提供了有助于理 解词语用法的上下文信息。

2. 缺点:它的缺点是特征矩阵变得更为稀疏——一个N元语法不太可能出现两 次(短文本中!)。

对于社会媒体所产生的内容以及其他短文档,N元语法不可能出现在多篇不同的文档中,除 非是转发。然而,在长文档中,N元语法就很有效。

文档的另外一种N元语法关注的不是一组词而是一组字符(虽然字符N元语法①有多种计算方 法!)。字符N元语法有助于发现拼写错误。

-----整理自《数据挖掘入门与实践》

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值