Content-based table retrieval for web queries

最新推荐文章于 2023-11-30 15:57:12 发布

月下独听雪

最新推荐文章于 2023-11-30 15:57:12 发布

阅读量355

点赞数

分类专栏： AI 文章标签： nlp

本文链接：https://blog.csdn.net/qq_39094534/article/details/119323999

版权

该论文关注基于内容的表检索，旨在从大量表格中找到与查询最相关的表。通过结合特征提取和神经网络，计算查询与表格内容的关联性。论文首先使用BM25算法筛选候选表，随后通过多级特征匹配，包括单词、短语和句子级别，以及基于神经网络的特征，进一步评估相关性。

摘要由CSDN通过智能技术生成

发表期刊：Neurocomputing
论文连接：https://www.sciencedirect.com/science/article/pii/S0925231218312219

摘要

论文重点关注基于内容的表检索，给定一个查询，任务是从一组表中找到最相关的表。在该任务的研究中，如果想要取得好的结果需要一个强大的语义匹配模型和更丰富的训练和评估预料。为了解决这一问题，论文提出了一种基于排名的方法，通过对查询语句特征的提取和神经网络结构的结合来计算查询和表内容之间的相关性。

介绍

给定一个查询，任务是从一组表中找到最相关的表。
表格检索对自认语言处理和信息检索都非常重要。
表格检索面临着多个挑战:
1. 如何有效地表示一个表，一个表通常是结构化或半结构化的，包括标题、字段、单元格等信息。
2. 第二个挑战是如何构建一个模型来度量非结构自然语言和表之间的相关性。因为查询和表的形式不同，所以表的检索可以看作是一个多模态任务
3. 据论文研究调查说明，目前没有一个公开可用的数据集用于表检索。
在这里插入图片描述

论文方法

论文提出的方法分为两个级联步骤，以权衡准确性和效率。
一、首先使用基本相似性度量找到若干个候选表
二、然后对候选表进一步计算与查询之间的相关性

任务描述

给定一个查询 $q$ 和一组表格 $T={t_1,...,t_N}$ ，表搜索的模板就是找到与 $q$ 最相关的表 $t_i$ . 通常 $q$ 是自然语言表达，例如 $" m a j o r c i t i e s o f n e t h e r l a n d s “$ 。表 $表t_i$ 被定义为由三部分组成: $t={headers, cells, caption}$ 。一个表可以有多个字段，每个字段指示一列的属性。

方法介绍

候选表检索

候选表检索的目的是从整个大规模的集中得到一个小的候选集。
选择候选集时，论文使用BM25算法来计算查询和表格之间的相似度

bm25

bm25 是一种用来评价搜索词和文档之间相关性的算法，它是一种基于概率检索模型提出的算法，一句话概况其主要思想：对Query进行语素解析，生成语素 $q_i$ ，即 $Q=q_1, q_2, ..., q_n$ ；然后，对于每个搜索结果D，计算每个语素qi与D的相关性得分，最后，将qi相对于D的相关性得分进行加权求和，从而得到Query与D的相关性得分。