【Information Retrieval】嵌入与向量空间检索模型

信息检索相关背景、TF-IDF ,参考之前发布的文章:【Information Retrieval】信息检索的任务与方法-CSDN博客

本期开始介绍信息检索的基础模型——向量空间检索模型

一、嵌入(Embedding)

含义:非结构化的数据(如文本、图像、音频等)映射成结构化的向量表示,通常是低维、连续向量。

目的:通过Embedding将数据的关键特征抽象为向量形式,结构化的向量便于计算机处理分析。

在文本检索模型中的应用:

  • 向量空间检索模型:基于文本嵌入的余弦相似度进行几何计算
  • 二元独立检索模型:相关性的概率估计(如:BM25模型)

二、向量空间检索模型(Vector Space Retrieval Model)

方式:将文档和查询表示为向量,利用向量之间的相似性来进行检索。

二进制嵌入空间中,文档和查询的表示是二进制的(0或1):

wij:词项 i 在文档 j 中的权重 wij

相似性计算简化为共同术语的数量。

连续嵌入空间中:

1. 常使用余弦相似度(Cosine Similarity)作为检索状态值RSV:

计算文档嵌入查询嵌入之间夹角的余弦值来衡量它们的相似性,即衡量两个向量在方向上的相似性,而忽略它们的长度。通过归一化向量的长度,使得相似性度量不受文档长度的影响。

公式中的分子是向量的点积,分母是向量的范数的乘积。

对于两个相同维度的向量 a=[a1​,a2​,…,an​] 和 b=[b1​,b2​,…,bn​],它们的点积定义为:

向量的范数(长度,Norm):

余弦相似度的值范围在 -1 到 1 之间:

  • 当两个向量方向完全相同时,余弦相似度为 1。

  • 当两个向量方向完全相反时,余弦相似度为 -1。

  • 当两个向量正交(垂直)时,余弦相似度为 0。

2. 其他度量方法:如Jaccard相似系数适合短文本,Dice相似系数平衡稀疏数据。

学习资源来源:日内瓦大学计算机系 Stéphane Marchand-Maillet 教授课程《Information Retrieval》

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值