《查询问题相似与基于Bert的FAQ问答系统》知识图谱阅读笔记(五)

FAQ Retrieval using Query-Question Similarity and BERT-Based Query-Answer Relevance

一、介绍
FAQ是一种常见任务检索的任务,其目标是根据用户的查询从数据库中检索适当的问答(QA)。该文章提出了一种FAQ检索系统,它们的的方法考虑了用户查询(q)和常见问题(Q)之间的相似性以及查询问题(q)和答案(A)之间的相关性。
许多 FAQ检索模型使用q和QA对之间具有相关性标签的数据集。但是,构造这样的标记数据花费很多。为了解决这个问题,论文采用了一种无监督的方法来计算查询和问题之间的相似度。 另一方面,可以通过在FAQ数据库中使用QA对来计算查询(q)和答案(A)之间的相关性,这显示了给定q的FAQ答案的合理性。
论文中的localgovFAQ(从地方政府常见问题解答页面收集的 质量检查对)和StackExchange(FAQ的公开数据集 )两个数据集来训练模型。
训练模型结构

二、论文方法

  1. 任务描述: 以当地政府常见问题解答为例, 假设本地政府常见问题集(FAQ)的数量为N,并表示为 T 1 , T 2 , T 3 , . . . , T N T_{1},T_{2},T_{3},...,T_{N} T1,T2,T3,...,TN。目标FAQ集表示为 T t = Q 1 A 1 , Q 2 A 2 , . . . , Q M A M T_{t}=Q_{1}A_{1}, Q_{2}A_{2} ,..., Q_{M}A_{M} Tt=Q1A1,Q2A2,...,QMAM。任务是根据用户的查询q从 T t T_{t} Tt中找到合适的质量检查对 Q i A i Q_{i}A_{i} QiAi
  2. 使用TSUBAKI实现q-Q的形似计算: 该方法基于Best Match25(BM25),该方法时在信息检索系统中根据提出的query对document进行评分的算法。论文将每个(Q,A)对中的Q看作是document,并计算q与Q之间的相似度 S i m i l a r i t y ( q , Q ) Similarity(q,Q) Similarity(q,Q)
  3. 使用Bert计算q-A的相关性:Bert被设计为使用针对大型原始语料库的语言模型目标进行预训练,并针对包括句子分类,句子对分类和问题解答在内的每个特定任务进行微调。论文的方式使用Bert来解决(q-A)的二分类问题,将问题q和答案A作为输入,输出得到两者的相关性。选取数据集中的(Q,A)对为正样本,相关性Relevance(Q,A)记作1。随机选择 A ˉ \bar{A} Aˉ产生负样本 ( Q , A ˉ ) (Q,\bar{A}) (Q,Aˉ),其相关性 R e l e v a n c e ( Q , A ˉ ) Relevance(Q,\bar{A}) Relevance(Q,Aˉ)记作0。在搜索阶段,为用户的查询q和目标 T t T_{t} Tt中的每个QA对计算 R e l e v a n c e ( q , A i ) ( i = 1 , . . . , M ) Relevance(q, A_{i}) (i = 1, ..., M) Relevance(q,Ai)(i=1,...,M), 排名较高的质量检查对用作搜索结果。
  4. TSUBAKI与Bert的结合:(1)当TSUBAKI 的相似度分数很高时,为q和Q中的单词彼此高度重叠,搜索结果具有较高的可信度。(2)但是,TSUBAKI很难解决q和Q之间的词汇空缺。另一方面,由于BERT验证了q和A之间的相性,因此即使q和Q之间存在词汇空缺,它也可以检索适当的QA对。
  5. 相似排名计算:结合(4)中提出的两个特性。首先,论文方法将 BERT的输出结果排在前十位;对于TSUBAKI得分高于 α \alpha α的QA对,我们按照TSUBAKI得分的顺序对其进行排名;其余的按照 S i m i l a r i t y ( q , Q ) × t + R e l e v a n c e ( q , A ) Similarity(q,Q)×t+Relevance(q,A) Similarity(q,Q)×t+Relevance(q,A)的得分来进行计算排名,其中 t 为超参数。

三、实验
实验构建了当地政府常见问题集,包含1786个QA对。然后使用众包收集了对该政府的查询共990个查询。
通过众包收集的查询示例
TSUBAKI和BERT为每个查询最多输出五个相关的质量检查对, 并且对每个质量检查对进行了手动评估,分配了以下四个类别: A包含正确的信息。 B包含相关信息。 C该主题与查询相同,但不包含相关信息。 D仅包含无关信息。
在这里插入图片描述

  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值