两点前置知识
词袋法(词袋模型,bag of words):忽略文本中的词序、语法等信息,将文本视作词的集合,每一个词均为独立的,不依赖于其他词是否出现。这种情况下,一般是计算词出现的频率。
马尔科夫模型:如果单单照词袋法不去关心词与词的关系,则有很大问题,所以词与词的关系也开始考虑进去,但一句话中词太多,如果考虑所有词一同出现的概率,会太过复杂,于是马尔科夫模型就假定,每一个词只与前若干个词有关。这也称做N-gram模型。当假定与前一个词相关时,为Bi-gram(n=2),假定与前两个词相关时,为Tri-gram(n=3)。
N是否越大越好?
《Language Modeling with Ngrams》使用了 Perplexity 这一指标,该指标越小表示一个语言模型的效果越好。直观上讲,n越大,依赖的词越多,信息量就越多,预测也就越准确,但是如果n太大,则会导致有些n-gram没有出现过,这是稀疏(Sparsity)问题。也就是说,当一个句子中分词的每个组合出现的几率在语料库中都为0的话,意味着整个句子的出现概率为0,而n越大,出现0概率的句子的数目就越多,最后导致大部分的句子的概率都为0,这个不合常理。所以一般n取2-3较为合理和可信。
Python包的实现
在sklearn.feature_extraction.text中存在CountVectorizer的类,实现了tokenization (词语切分)和 occurrence counting (出现频数统计),并且可以使用n-gram。