爬在NLP的大道上——A Neural Model for Joint Document and Snippet Ranking in Question Answering for Large Doc

blackli7

于 2021-09-17 11:03:49 发布

阅读量117

点赞数 1

分类专栏： QA/IR 文章标签：自然语言处理深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42392668/article/details/120344535

版权

QA/IR 专栏收录该内容

5 篇文章 1 订阅

订阅专栏

JPDRM/JBERT

Motivation：

论文地址：https://arxiv.org/pdf/2106.08908.pdf

Motivation：

注意到在解决QA问题时，如果采取“先对document进行rerank打分，再对高分的document中的snippet进行打分”这种分开的方法，会造成错误的传递（无法修改）
例子：document D的rerank得分比较低，但其中存在snippet s相关性非常高，但以上的上下游的做法导致无法将s的信息传递回D，理论上应该对D的打分有所修复（即提高）

Method：

显然地，对以上问题的解决方法是，将“先对document进行rerank打分，再对高分的document中的snippet进行打分”这种异步的方式合二为一

将这种思想用于对两种模型：PDRMM和BERT，进行document打分任务时改造
原模型：

改造后：
原模型输入为每个document的embedding来输出此document对应的得分，改造后的模型输入为document中的每个sentence，产出sentence的得分，再将这些打分过上图这一层layer，完成document和其中sentence进行整合操作的思想（其中橙色部分表示此document的一些属性，比如特征长度，召回数量，IDF总和等）
应用于PDRMM称为JPDRMM，应用于BERT称为JBERT

Tips：

将传统QA流水线核心的两个过程合二为一，压缩了模型大小
将document和其各sentence的打分拼接一起处理，避免了异步处理导致的效果不一致

Results：

在生物医疗数据集（BIOASQ）和开放域数据集（Natural Questions）上snippet级的效果好，document级的效果也不差
模型参数相较于原二步处理的方法少了很多（因为合二为一）

My Thoughts：

速度应该很差，毕竟需要对全量sentence进行编码、跑分
没有进行合适的消融实验，使用当前合二为一的模型去与之前的每一步进行对比显得不是很科学，应该对比的是这个新layer内部的各个结构设计的科学性
（全量sentence处理当然snippet的正确率会高吧？）

（ps：本文图片均来自于原paper，侵删）

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬在NLP的大道上——A Neural Model for Joint Document and Snippet Ranking in Question Answering for Large Doc

爬在NLP的大道上——A Neural Model for Joint Document and Snippet Ranking in Question Answering for Large Document CollectionsMotivation：Method：Tips：Results：My Thoughts：论文地址：https://arxiv.org/pdf/2106.08908.pdfMotivation：注意到在解决QA问题时，如果采取“先对document进行rerank打分，再对
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。