基本原理
将文本集看看作一个矩阵,每篇文档看成有不同的N-Gram构成。以bi-gram为例,若汉字采用GB 2312-80字符集,则将会由6736*6736个不同的bi-gram,即矩阵的列为6736*6736。如此大的列数,实际处理中,往往通过Hash-Coding的方式进行压缩。矩阵中的任一元素aij 表示第i篇文档的第j个bi-gram,其值的大小为该bi-gram出现的次数。这种表示方式作为特征用于分类即为N-Gram Classifier。另外提一句,两篇文档的向量越相似,两篇文档的主题相似程度越高。