Content-based table retrieval for web queries

该论文关注基于内容的表检索,旨在从大量表格中找到与查询最相关的表。通过结合特征提取和神经网络,计算查询与表格内容的关联性。论文首先使用BM25算法筛选候选表,随后通过多级特征匹配,包括单词、短语和句子级别,以及基于神经网络的特征,进一步评估相关性。
摘要由CSDN通过智能技术生成

发表期刊:Neurocomputing
论文连接:https://www.sciencedirect.com/science/article/pii/S0925231218312219

摘要

论文重点关注基于内容的表检索,给定一个查询,任务是从一组表中找到最相关的表。在该任务的研究中,如果想要取得好的结果需要一个强大的语义匹配模型和更丰富的训练和评估预料。为了解决这一问题,论文提出了一种基于排名的方法,通过对查询语句特征的提取和神经网络结构的结合来计算查询和表内容之间的相关性。

介绍

给定一个查询,任务是从一组表中找到最相关的表。
表格检索对自认语言处理和信息检索都非常重要。
表格检索面临着多个挑战:
1. 如何有效地表示一个表,一个表通常是结构化或半结构化的,包括标题、字段、单元格等信息。
2. 第二个挑战是如何构建一个模型来度量非结构自然语言和表之间的相关性。因为查询和表的形式不同,所以表的检索可以看作是一个多模态任务
3. 据论文研究调查说明,目前没有一个公开可用的数据集用于表检索。
在这里插入图片描述

论文方法

论文提出的方法分为两个级联步骤,以权衡准确性和效率。
一、首先使用基本相似性度量找到若干个候选表
二、然后对候选表进一步计算与查询之间的相关性

任务描述

给定一个查询 q q q和一组表格 T = t 1 , . . . , t N T={t_1,...,t_N} T=t1,...,tN,表搜索的模板就是找到与 q q q最相关的表 t i t_i ti. 通常 q q q是自然语言表达,例如 " m a j o r c i t i e s o f n e t h e r l a n d s “ "major cities of netherlands “ "majorcitiesofnetherlands。表 表 t i 表t_i ti被定义为由三部分组成: t = h e a d e r s , c e l l s , c a p t i o n t={headers, cells, caption} t=headers,cells,caption。 一个表可以有多个字段,每个字段指示一列的属性。

方法介绍

候选表检索

候选表检索的目的是从整个大规模的集中得到一个小的候选集。
选择候选集时,论文使用BM25算法来计算查询和表格之间的相似度

bm25

bm25 是一种用来评价搜索词和文档之间相关性的算法,它是一种基于概率检索模型提出的算法,一句话概况其主要思想:对Query进行语素解析,生成语素 q i q_i qi,即 Q = q 1 , q 2 , . . . , q n Q=q_1, q_2, ..., q_n Q=q1,q2,...,qn;然后,对于每个搜索结果D,计算每个语素qi与D的相关性得分,最后,将qi相对于D的相关性得分进行加权求和,从而得到Query与D的相关性得分。

BM25算法的一般性公式如下:
在这里插入图片描述
其中,Q表示Query, q i q_i qi表示Q解析之后的一个语素(对中文而言,我们可以把对Query的分词作为语素分析,每个词看成语素 q i q_i qi;d表示一个搜索结果文档; W i W_i Wi表示语素 q i q_i qi的权重; R ( q i , d ) R(q_i, d) R(qi

基于MATLAB实现旅行推销员问题(TSP)的代码+项目说明(课程大作业)+测试数据.zip基于MATLAB实现旅行推销员问题(TSP)的代码+项目说明(课程大作业)+测试数据.zip基于MATLAB实现旅行推销员问题(TSP)的代码+项目说明(课程大作业)+测试数据.zip基于MATLAB实现旅行推销员问题(TSP)的代码+项目说明(课程大作业)+测试数据.zip基于MATLAB实现旅行推销员问题(TSP)的代码+项目说明(课程大作业)+测试数据.zip基于MATLAB实现旅行推销员问题(TSP)的代码+项目说明(课程大作业)+测试数据.zip基于MATLAB实现旅行推销员问题(TSP)的代码+项目说明(课程大作业)+测试数据.zip基于MATLAB实现旅行推销员问题(TSP)的代码+项目说明(课程大作业)+测试数据.zip基于MATLAB实现旅行推销员问题(TSP)的代码+项目说明(课程大作业)+测试数据.zip基于MATLAB实现旅行推销员问题(TSP)的代码+项目说明(课程大作业)+测试数据.zip基于MATLAB实现旅行推销员问题(TSP)的代码+项目说明(课程大作业)+测试数据.zip基于MATLAB实现旅行推销员问题(TSP)的代码+项目说明(课程大作业)+测试数据.zip基于MATLAB实现旅行推销员问题(TSP)的代码+项目说明(课程大作业)+测试数据.zip基于MATLAB实现旅行推销员问题(TSP)的代码+项目说明(课程大作业)+测试数据.zip基于MATLAB实现旅行推销员问题(TSP)的代码+项目说明(课程大作业)+测试数据.zip基于MATLAB实现旅行推销员问题(TSP)的代码+项目说明(课程大作业)+测试数据.zip基于MATLAB实现旅行推销员问题(TSP)的代码+项目说明(课程大作业)+测试数据.zip基于MATLAB实现旅行推销员问题(TSP)的代码+项目说明(课程大作业)+测试数据.zip基于MATLAB实现旅行推销员问题(TSP)的代码+项目说明(课程大作业)+测试数据.zip基于MATLAB实现旅行推销员问题(TSP)的代码+项目说明(课程大作业)+测试数据.zip 【备注】 1、该资源内项目代码百分百可运行,请放心下载使用!有问题请及时沟通交流。 2、适用人群:计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途:项目具有较高的学习借鉴价值,不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行,或热爱钻研,亦可在此项目代码基础上进行修改添加,实现其他不同功能。 欢迎下载!欢迎交流学习!不清楚的可以私信问我!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值