文档模型,主要针对的是如何把文档数字化、向量化,最终可以利用这些文档来建立模型。当前文档模型主要包括三类:布尔模型,向量空间模型,概率模型。
1. 布尔模型
每个词在文档中出现则记为1,否则记为0。这样就可以将每一篇文章都转化为向量,这种方法非常简单易懂,但是会丢失很多重要信息,比如词组出现的次数。因为排除停用词(stop words)以外,一个单词在文章中出现次数较多,那么它相对来说也更重要。这也被称作词集模型,另外一种词袋模型,向量中的每个数指的是这个单词在文章中出现的次数。
2. 向量空间模型
词集模型和词袋模型都太过简单,比如词集模型无法比较两个都是1的单词的重要程度;而词袋模型的缺陷在于并不是一个单词出现的次数越多就越重要。因为有些词可能本身使用的就很多,在一片文章中出现的多也无可厚非。