仅基于网上学习资料以及自己的了解,本文随时可能更改。
在信息推荐中使用分词算法是为了提取关键字。
1、N-Gram Model
即N元文法统计模型,假定在一个语句中第i个词出现的频率,条件依赖于它前面的N-1个词。整句的概率就是各个词出现的概率乘积。在各种可能的分词方法中取构成句子的概率最大者(最大似然估计...woc)。若N过大,那么这种方法有两个缺陷:参数空间过大无法实用化;数据稀缺严重。
由马尔科夫假设:“一个词的出现概率仅仅依赖于它前面的一个或几个词”,常常使用bigram和trigram,即仅根据一个词前面的一个词(就是bigram)(公式:P(T) = P或两个词(就是trigram)来计算整句概率。
N-gram是一种基于统计的分词方法,基于统计的分词方法又叫无词典分词法或统计取词方法。原理:相邻的字同时出现频度越多,他们越有可能是作为一个词出现。因此统计语料中相邻共现的字的组合的频度,计算它们的互现信息。这种方法只需要对语料中的字组频度进行统计,而不需要切分字典。其局限性:会经常抽出一些同时出现而并非作为词语的常用词组ÿ