论文笔记：Real-Time Open-Domain Question Answering with Dense-Sparse Phrase Index

最新推荐文章于 2024-10-01 20:17:55 发布

北在哪

最新推荐文章于 2024-10-01 20:17:55 发布

阅读量2k

点赞数

分类专栏： QA 文章标签：深度学习人工智能自然语言处理

本文链接：https://blog.csdn.net/qq_43183860/article/details/121387300

版权

QA 专栏收录该内容

8 篇文章 1 订阅

订阅专栏

1. 概要

本文提出Dense-Sparse Phrase Index (DENSPI)，一个用于实时开放域 QA 的可索引的查询无关的短语表示模型。短语表示事先离线存储，推理时，输入问题被映射到相同的表示空间，并检索具有最大内积搜索的短语作为答案。短语表示结合了密集向量和稀疏向量。

2. 短语和问题嵌入

2.1 短语的密集嵌入向量

使用表示第 $k$ 个文档中起始位置分别为 $i,j$ 的短语的密集向量，论文将该向量分解为三个部分：一个对应于短语开始位置的向量，一个对应于结束位置的向量，以及一个衡量开始和结束向量之间一致性的标量值。如下图所示：

其中，分别表示文档的第 i 个和第 j 个词的开始和结束向量，是第 i 个和第 j 个位置之间的短语连贯性标量。论文中说明，将短语表示为开始和结束向量的函数可以使我们能够有效地计算和存储向量，而不用枚举所有可能的短语。一致性标量值可以确保我们生成答案的连贯性。

论文使用BERT-large将每篇文档中的tokens映射为密集向量，其中 N 是输入序列的长度。短语的密集嵌入向量的获取可以分为以下三步：

1）将每个token的密集向量分为四部分：。

2）将短语开始位置的作为，将短语结束位置的作为，将的点积作为。

3）最终，

2.2 短语的稀疏嵌入向量

使用bigrams的TF-IDF构建稀疏向量，将得到的稀疏向量归一化，以便其能用于计算余弦相似度。

2.3 问题嵌入模型

问题的嵌入同样由密集向量和稀疏向量构成，，其中稀疏向量由上述TF-IDF模型获得，密集向量取自BERT cls位置的输出：

。

3.训练、索引和搜索

为了训练密集嵌入模型，论文在训练期间为每个问题提供黄金段落（即包含答案短语的段落），而不是直接在整个维基百科上进行优化，因为这是计算不可行的。在给出问题密集嵌入和短语密集嵌入后，我们的优化目标可以整理成以下公式：

令，，

损失函数定义为：

论文中指出，由于损失函数 $L$ 会产生较小的梯度，所以额外添加了两个辅助损失函数进行训练：

$L^{1}$ 对应着开始位置的损失，结束位置的损失 $L^{2}$ 以相同的方式给出，因此，最终损失由下式给出：

论文指出，维基百科包含大约 30 亿个token，因此枚举长度≤20 的所有潜在答案短语将导致大约 600 亿个短语。假设每个短语密集向量以 961 维的f loat32 存储，则需要 240 TB 的存储空间（600 亿乘以 961 个维度乘以每个维度 4 个字节）。因此，论文采用了三种技术来将索引的大小减少到 1.2 TB，而不会牺牲太多的准确性。这三种技术分别是Pointer、Filtering和Quantization。

1）Pointer

由于每个短语向量是 $a_{i}$ 和 $b_{j}$ 的串联（以及一个标量 $c_{i,j}$ ，但它占用的空间很小），因此许多短语共享相同的开始或结束向量。因此，可以独立地存储开始和结束向量，并且只存储指向这些向量的指针以用于短语表示。这有效地将内存占用从 240 TB 减少到 12 TB。

2）Filtering

在每个开始和结束向量的顶部训练一个简单的二元分类器，用实际答案进行监督（不观察问题）。首先排除不太可能是答案短语的潜在开始或结束位置的向量，从而进一步将内存占用从 12 TB 减少到 5 TB。

3）Quantization

使用标量量化将float32转为int8，因此最终的内存消耗为 1.2 TB。

论文指出，虽然使用稀疏最大内积搜索算法直接搜索最佳答案短语是理想的，但找不到一个好的开源实现，可以扩展到数十亿个向量并同时处理短语向量的密集和稀疏部分。因此，论文考虑了三种近似策略，分别是sparse-first search (SFS)、dense-first search (DFS)以及它们的混合方法。

1）sparse-first search

首先，根据稀疏相似性（论文没有给出具体使用什么算法）先检索到top $k^{s}$ 个相关文档，然后再对检索到的文档中的所有短语执行精确搜索。这类似于大多数基于管道的 QA 系统。