向量空间模型

1. 基础

1.1 向量空间

如果 V 满足向量的加法和乘法封闭性,我们就称 V 是 F 上的向量空间。

1.2 向量间的距离

  • 曼哈顿距离
    在这里插入图片描述
  • 欧氏距离
    在这里插入图片描述
  • 切比雪夫距离
    在这里插入图片描述
  • 闵氏距离
    在这里插入图片描述

1.3 向量长度

L1​ 范数 ∣∣x∣∣ ,它是为 x 向量各个元素绝对值之和,对应于向量 x 和原点之间的曼哈顿距离。
L2​ 范数 ∣∣x∣∣2​ ,它是 x 向量各个元素平方和的 1/2​ 次方,对应于向量 x 和原点之间的欧氏距离。
Lp​ 范数 ∣∣x∣∣p​ ,为 x 向量各个元素绝对值 p 次方和的 1/p 次方,对应于向量 x 和原点之间的闵氏距离。
L​ 范数 ∣∣x∣∣∞​,为 x 向量各个元素绝对值最大那个元素的绝对值,对应于向量 x 和原点之间的切比雪夫距离。

1.4 向量夹角的余弦

在这里插入图片描述

1.5 向量空间模型

向量空间模型假设所有的对象都可以转化为向量,然后使用向量间的距离(通常是欧氏距离)或者是向量间的夹角余弦来表示两个对象之间的相似程度。

2. 文本检索

(1) 文档转化为特征向量

首先,基于 BOW 方式对文档进行预处理,以获得文档的单词和词组。
①分词:
②停用词:
③同义词和扩展词:

然后,对所有文档的单词和词组去重,将唯一的单词或词组作为向量的一个维度

最后,基于 tf-idf 方法为每个维度取值
在这里插入图片描述
N 表示文档数量。文档频率 df 表示存在某个单词的文档数量。
在这里插入图片描述
词频 tf 表示单词在文档中出现的次数。

(2) 用户查询转化为向量

(3) 基于向量空间模型计算查询向量与文档向量的相似度

(4) 排序

3. 文本聚类

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值