AI快车道PaddleNLP系列直播课5|RocketQA:预训练时代的端到端问答

目录

1 问答系统及应用

1.1 定义

1.2 应用

1.3 问答系统的分类

2 问答技术发展回顾

 预训练时代的端到端问答:

3 端到端问答技术介绍

3.1 检索式问答

 3.2 检索模型

3.2.1 两种不同的检索方式:稀疏向量检索、稠密向量检索

 3.2.2 基于预训练模型的检索模型结构:双塔、单塔 

3.2.3 基于近似近邻ANN检索的实时检索问答

3.2.4 稠密向量检索效果显著超越稀疏检索

3.2.5 模型训练方法的前沿工作

 4 RocketQA工具使用介绍

4.1 预训练时代的研发难题

 4.2 RocketQA端到端问答开源工具的优势


        问答系统是信息检索系统的一种高级形式,旨在用准确简洁的自然语言回答用户自然语言提出的问题。
        应用场景:搜索引擎、智能设备和智能客服。
        分类:文本问答,知识库问答,表格问答和视频问答。
        技术发展:规则方法、统计机器学习时代、深度学习方法。
        预训练时代来了,端到端的系统可以做到全局优化,这种端到端问答系统一般是都是检索式问答,分为两阶段:先从语料库中检索候选段落,再阅读理解从候选段落中抽取候选答案。
        本课围绕检索阶段:

  • 检索方式可分为稀疏向量检索和稠密向量检索,稠密向量检索客服了稀疏向量检索只能捕捉字面匹配的问题,可以做到建模语义匹配,检索效果显著超越稀疏检索。
  • 检索模型结构使用双塔模型,虽然不如单塔模型交互充分,但是速度非常快,快速得到语义相似度用于快速索引。双塔模型得到了向量表示,就可以在向量空间中快速找到语义相似的候选段落

       RocketQA效果很好,开源的中文端到端问答模型,也有英文并且提供接口可以直接用,目前还不能在自己的数据集上微调,可以关注一下github repo后续会更新

1 问答系统及应用

1.1 定义

问答系统(question answering system,QA)是信息检索系统的一种高级形式,它能用准确、简洁的自然语言回答用户自然语言提出的问题

1.2 应用

  1. 搜索引擎
  2. 智能设备
  3. 智能客服

具体的业务问题:说明书问答(找到答案高亮显示出来)疫情政务问答(RocketQA关注的是内容的语义相关性而非关键词匹配)

1.3 问答系统的分类

2 问答技术发展回顾

1、Protosynthex(Simmons et al. 1963)通过依存关系匹配问题和答案,面向限定领域、采用规则方法的专家系统,解析问题为主谓宾,候选答案也解析为同样的主谓宾,进行强规则匹配

2、TREC QA(1999-2007)问答系统的著名会议,十年还是难以进入实用化水平阶段

NLP进入了统计机器学习时代:人工标记语料,训练统计学习模型。

 3、IBM Watson,还是沿用了统计机器学习的方法

 4、DrQA,此时深度学习方法已经成为NLP的主流方法,特点是能基于大规模语料进行学习

如下图,两段式形式,先段落检索再进行阅读理解

 ACL是国际NLP的会议,下图是此会议接收QA论文的趋势。

2011-2012年统计机器学习时代,一篇都没有。随着大规模语料和深度学习方法的出现逐渐投入更多的研究

2019年出现了预训练模型的技术,达到了新高度

 预训练时代的端到端问答:

        预训练模型出现之前要搭建一个问答系统,它是由不同的模块组成的,可能有很多模块是不可导不可学习的,这也为系统优化带来了困难(模块独立优化难以达到全局优化的效果)

        预训练时代,因为能得到很好的语义表示(向量),端到端系统可以做到全局优化

3 端到端问答技术介绍

3.1 检索式问答

一般问答都是检索式问答,先从语料库中检索候选段落,在从段落中抽取候选答案

本课强调段落检索阶段,之前是tfidf这种稀疏检索的方式,现在两阶段都是可导可学习的模块,整个系统端到端,可以进行全局优化

 3.2 检索模型

3.2.1 两种不同的检索方式:稀疏向量检索、稠密向量检索

 3.2.2 基于预训练模型的检索模型结构:双塔、单塔 

  • 双塔:把问题和段落表示成向量,通过计算向量之间内积或者cos相似度可以快速得到两者的语义相似度。可以用于快速索引,但是问题和段落之间难以交互
  • 单塔:交互充分,但是效率非常低

3.2.3 基于近似近邻ANN检索的实时检索问答

 通过双塔结构得到了向量表示,就可以在向量空间中快速找到语义相似的候选段落

送入阅读理解阶段就可以快速抽取出候选答案

3.2.4 稠密向量检索效果显著超越稀疏检索

3.2.5 模型训练方法的前沿工作

 4 RocketQA工具使用介绍

4.1 预训练时代的研发难题

 4.2 RocketQA端到端问答开源工具的优势

 

 

 

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值