【Information Retrieval】信息检索的任务与方法

一、信息检索的核心任务:

从文档集合中找到与查询最相关的文档。

二、信息检索的核心问题:

  1. 如何表示文档和查询(例如,使用词袋模型、TF-IDF、嵌入等)。

  2. 如何计算文档与查询的相关性(例如,通过 RSV(dj,q), Retrieval Status Value)。

  3. 如何根据相关性对文档进行排序,返回最相关的结果。

三、检索状态值(RSV)从二元值扩展为连续值:

二元值:

布尔模型:

  • 词汇表:M=3词项,"A" (t1=100),"B" (t2=010),"C" (t3=001)。

  • 查询:q=A∧(B∨¬C)。

  • 查询转换为合取范式:

    q=(A∧B∧C)∨(A∧B∧¬C)∨(A∧¬B∧¬C)

    用向量表示为:

    q=111∨110∨100
  • 匹配文档:任何形式为 111、110 或 100 的文档都匹配查询。例如:

    • "AAA"(111)匹配。

    • "AAB"(110)匹配。

    • "CCC"(001)不匹配。

连续值:

词袋模型(Bag of words):

词袋模型是一种将文本表示为词项(terms)集合的方法,忽略词序和结构(如段落、标题等),只关注词项的出现频率。

词频(Term Frequency, TF):

词频衡量一个词项在文档中出现的频率,假设词项出现次数越多,它对文档的代表性越强。

term frequency,tf: 

逆文档频率(Inverse Document Frequency, IDF)

逆文档频率衡量一个词项在整个文档集合中的区分能力。如果一个词项出现在很多文档中,它的区分能力较低。

Inverse document frequency, idf:

TF-IDF 加权方案:

TF-IDF 是一种常用的加权方案,结合了词频(TF)和逆文档频率(IDF),用于衡量词项在文档中的重要性。

  • 每行对应一个词项。M 是词汇表中词项的总数。

  • 每列对应一个文档。

  • 元素 wij 表示词项 i 在文档 j 中的 TF-IDF 权重。

TF-IDF 的应用

  • 文档嵌入:TF-IDF 将文档表示为向量,可以用于计算文档之间的相似度(如余弦相似度)。

  • 词项嵌入:TF-IDF 也可以将词项表示为向量,用于分析词项在文档集合中的分布。

学习资源来源:日内瓦大学计算机系 Stéphane Marchand-Maillet 教授课程《Information Retrieval》

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值