特征工程——向量空间模型及文本相似度计算

文档的向量化表示:BOW假设和VSM模型

文本向量化的目的:便于计算文档时间的相似度

BOW(bag-of-words model):假设可以忽略文档内的单词顺序和语法、句法等要素,将其仅仅看作是若干个词汇的集合。

VSM(Vector space model):即向量空间模型。其是指在BOW假设下,将每个文档表示成同一向量空间的向量。

BOW-VSM栗子

1
停用词(stop words)

**停用词:**非常常见且实际意义有限的词。几乎可能出现在所有场合,因而对某些应用比如信息检索、文本分类等区分度不大

停用词的过滤一般根据实际情况而定

N-gram模型
2
文档之间的欧氏距离
3
文档之间的余弦相似度
4
Tf-idf词条权重计算
5 6
Tf-idf词条权重计算举例
7
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值