WWW 2020 | 信息检索中基于上下文的文本词项权重生成

本文介绍了一种名为HDCT的新方法,用于生成信息检索中的上下文词项权重,以改进初步检索模型如BM25的性能。通过BERT模型获取段落级权重,再聚合为文档级权重,利用文本内容、相关性和伪相关反馈信号进行训练。实验证明,HDCT在ClueWeb和MS-MARCO数据集上表现优于传统词频方法。
摘要由CSDN通过智能技术生成

©PaperWeekly 原创 · 作者|金金

单位|阿里巴巴研究实习生

研究方向|推荐系统

本文由卡耐基梅隆大学发表于 WWW 2020,介绍了基于上下文的文本词项权重生成方法 HDCT。原有的搜索引擎在使用词袋模型表示文本时,性能受限于基于词频(term frequence)的词项权重,HDCT 可以生成基于上下文的词项权重作为优化方案,该研究对 BM25 等初步检索(first stage)模型性能提升具有较大意义。


论文标题:Context-Aware Document Term Weighting for Ad-Hoc Search

论文来源:WWW 2020

论文链接:http://www.paperweekly.site/papers/3972

代码链接:https://github.com/AdeDZY/DeepCT

算法

HDCT 算法首先通过 BERT 模型得到段落级词项权重,然后聚合文本内各段落词项权重,最后使用文本内容信号、相关性信号和伪相关反馈信号作为标签训练模型,模型框架图如下:

图1. HDCT框架图

段落级词项权重

给定文本 ,作者首先将其划分为 个段落

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值