《读论文系列》NCI A Neural Corpus Indexer for Document Retrieval

摘要

用transformer做文档检索,现有的文档检索解决方案主要关注索引模式。很难针对最终的检索的目标进行优化。本文端到端的深度检索框架可以很大程度的提升检索的性能。为此,本文提出了Neural Corpus Indexer(NCI),一个序列到序列模型,以query作为输入,直接输出相关文档的id。为了优化NCI的召回性能,本文提出了prefix-aware weight-adaptive 解码器框架,并利用了许多技巧包括查询生成,语义文档标识符,基于一致性的正则。

当前存在的问题,提出本文模型,本文模型的创新点,结果表现

介绍

网页搜索重要的两块:文档检索和排序,介绍了这两个方法,讲述了缺点,引出召回率对文档检索很重要。由于文档检索不能充分利用神经网络,讲述了前人为了解决这个问题做的工作-DR,DSI和Seal。但是这三个模型优缺点,从而引出本文模型NCI。简单介绍了本文的三个创新点。

1 利用查询生成网络来获得可能的查询和文档对,

2 .分层——means算法,

3 前缀感知权重自适应解码器

然后讲解了本文的贡献,与创新点相对应

相关工作

1 稀疏检索(建立在具有术语匹配度量的倒排索引上的)

2 密集检索(用密集向量表示查询和文档,并用内积或余弦相似度来模拟它们的相似度)

3 自回归检索(利用端到端自回归模型。)

4预训练语言模型(计算输入查询的表示向量,并应用交叉层计算每个查询与文档对之间的相关性评分。)

3 方法(NCI模型)

模型有三个部分

1 预处理 每个文档通过分层k-means用语义标识符表示。

2 query生成 根据内容为每个document生成query

3 NCI的训练部分 模型通过标准的transformer和提出的前缀感知权重自适应(PAWA)解码器进一步捕捉时序信息进行训练

3.1 预处理(用语义标识符表示文档)

灰点代表文档,首先做k-means聚类,假设k=3,把文档放在三个不同的类中,给每一个类一个id,当某个类中的文档多余某个阈值时,对这个类进一步做k-means聚类

Id带有一定的语义信息。

两个文档前缀很相像就表示距离是比较相近的。

Query到docid换算成了一个层次化的多分类问题。

3.2 文档生成query

采用DocTQuery(它将文档术语作为输入,并通过随机抽样产生相关查询。)和Document As Query(我们还利用每个文档的前64个术语作为query。从整篇文章中随机抽取10组64个连续的词条作为附加query)

3.3 前缀感知权重自适应解码器

蓝色部分是本来模型有的部分,绿色部分是创新点部分

蓝色的流程如下:

1 将输入和当前标识符的第0个令牌;放进解码器得到h1,再将h1乘以权重W(这个W此时只于位置相关),再经过softmax得到输出r1

2 再将输入x,r0,r1放进解码器部分得到h2,再将h2乘以权重W,再经过softmax得到输出r2

3 重复以上操作

但是本篇作者认为这样产生的时序信息不够,所以额外加入了右边绿色部分,加上这个部分后的实现过程如下:

1将输入和当前标识符的第0个令牌;放进解码器得到h1,再将h1乘以权重W

2 此时的权重需要通过PWAD额外学习,将r0放进而额外的解码器中得到W1,再经过softmax得到输出r1

3  再将输入x,r0,r1放进解码器部分得到h2,再将h2乘以权重W

4 将r0,r1放进额外的decoder得到w2,再经过softmax得到输出r3

3.4 损失函数的改进

引入了罚,能够提高模型的稳定性

损失函数如下

4 实验

5 缺点和未来

1 将NCI扩展到网络规模需要更大的模型容量。

2为了实时服务在线查询,需要提高推理速度。

3 当向系统中添加新文档时,很难更新基于模型的索引。

6 结论

在这项工作中,我们引入了一种新的文档检索范式,该范式通过端到端深度神经网络统一了训练和索引阶段。

  • 7
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值