文本挖掘 - 文档模型

文档模型,主要针对的是如何把文档数字化、向量化,最终可以利用这些文档来建立模型。当前文档模型主要包括三类:布尔模型,向量空间模型,概率模型。

1. 布尔模型

每个词在文档中出现则记为1,否则记为0。这样就可以将每一篇文章都转化为向量,这种方法非常简单易懂,但是会丢失很多重要信息,比如词组出现的次数。因为排除停用词(stop words)以外,一个单词在文章中出现次数较多,那么它相对来说也更重要。这也被称作词集模型,另外一种词袋模型,向量中的每个数指的是这个单词在文章中出现的次数。


2. 向量空间模型

词集模型和词袋模型都太过简单,比如词集模型无法比较两个都是1的单词的重要程度;而词袋模型的缺陷在于并不是一个单词出现的次数越多就越重要。因为有些词可能本身使用的就很多,在一片文章中出现的多也无可厚非。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值