【笔记1-3】斯坦福机器阅读理解模型Stanford Attentive Reader

https://arxiv.org/pdf/1606.02858.pdf?
A Thorough Examination of the CNN/Daily Mail Reading Comprehension Task

最近在读陈丹琦学姐的博士毕业论文,论文里面涉及到的关键论文和模型都会在近期进行总结,以帮助理解毕业论文中的相关模型以及思想。

【笔记1-1】基于对话的问答系统CoQA (Conversational Question Answering)

【笔记1-2】基于维基百科的开放域问题问答系统DrQA

【笔记1-4】陈丹琦毕业论文 NEURAL READING COMPREHENSION AND BEYOND

(一)论文概述(摘要+简介)

本文的研究主要基于Hermann创建的由CNN和daily mail的新闻组成的数据库,一方面,对这个数据集亲手进行了详细的分析,另一方面,提出一个简单的模型来处理该数据集,在当时能够达到该数据集上的最佳水平,且作者认为这个水平就是模型在这个数据集上能够达到的最高上限了。
数据集
数据及介绍
该数据集属于完形填空类数据集,需要根据上下文来推断文中某个位置的实体单词,作者通过仔细分析数据集以及探索机器阅读在这个问题上需要具备什么程度的阅读理解能力,得出了以下结论:

  1. 数据集比以前更容易实现
  2. 简单、传统的自然语言处理系统可以做得更好
  3. 深度学习系统的分布式表示在语义识别方面非常有效
  4. 当前系统具有单句关系提取的性质,而不是语篇上下文文本理解
  5. 提出的模型接近于该数据集的性能上限
  6. 答对最后20 %的问题的可能性低,大多数问题涉及数据准备中的问题

(二)阅读理解任务

在该阅读理解任务中,模型需要完成的任务是阅读一篇文章,回答一个完形填空式的问题,该问题的答案为一个实体。即,每一个任务包含三个部分

( p , q , a ) , p   i s   p a s s a g e , q   i s   a   c l o z e   s t y l e   q u e s t i o n , a   i s   a n   a n s w e r   o f   e n t i t y (p, q, a), p \ is \ passage, q \ is \ a \ cloze \ style \ question, a \ is \ an \ answer \ of \ entity (p,q,a),p is passage,q is a cloze style question,a is an answer of entity

p = { p 1 , . . . . . . , p m } , q = { q 1 , . . . . . . , q l } , a ∈ p ∩ E p = \{p_1,......,p_m\}, q = \{q_1,......,q_l\}, a \in p \cap E p={ p1,......,pm},q={ q1,......,ql},apE

(三)模型

Entity-centric classifier

先构建一个传统的基于特征提取的分类器,以检测哪些特征对于该任务而言比较重要。
为每一个候选实体设计一个特征向量 f p , q ( e ) f_{p,q}(e) fp,q(e),学习一个权重向量 θ \theta θ 使得正确答案的ranking比其他候选实体高(即转换成候选实体的ranking问题,将ranking得分最高的实体作为答案) θ T f p , q ( a ) > θ T f p , q ( e ) , ∀ e ∈ E ∩ p ∖ { a } \theta^Tf_{p,q}(a) > \theta^Tf_{p,q}(e), \forall e \in E\cap p \setminus \{a\} θTf

  • 5
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值