《Reading Wikipedia to Answer Open-Domain Questions》浅析

前言:

本人所写博客主要目的是记录之用,不免显得琐碎唠叨,不过分享出来如果能有只言片语帮到大家也是极好的。若您觉得一无所获,请及早退出,若有想法进一步交流,可评论。(原谅我没有时间排版)

这是陈丹琦博士(四舍五入可以算作学姐了?)的论文。

论文地址http://aclweb.org/anthology/P17-1171

论文名称:通过阅读维基百科来回答开放性问题。

1.维基不像其他的kb数据库那样方便计算机处理,(kb中的关系对于open-domin的问答很稀疏,并不好用)

2.定义一个过程叫做machine reading at scale (MRS):In order to answer any question, one must first retrieve the few relevant articles among more than 5 million items, and then scan them carefully to identify the answer.

3.像 IBM’s DeepQA,它其实是依赖于大量的知识,不仅仅是维基,还包括文章、新闻等。但是我们现在想通过单一的信息来源,比如维基,获取答案,这就要求机器一定能读懂文章,而不是简单的信息检索。

4.现有的一些数据集,比如SQUAD,它们的设置是答案就在给定的一小段文本中,这就有点easy了。现有的模型已经能够做得很好。

5.我们的模型分为两部分:Document Retriever和 Document Reader,其中Retriever已经优于维基内置的搜索引擎。并且我们的效果经过了多个数据集的检验,重点是我们用了multitask learning。

 

那么什么是multitask learning呢?

https://zhuanlan.zhihu.com/p/27421983该文章讲的很详细,总结来说就是  主任务(main tasks)使用相关任务(related tasks)的训练信号(training signal)所拥有的领域相关信息(domain-specific information),做为一直推导偏差(inductive bias)来提升主任务(main tasks)泛化效果(generalization performance)的一种机器学习方法。

6.回到论文中来,Document Retriever这里没有详细说明,大概方法是“A simple inverted index lookup followed
by term vector model scoring performs quite well on this task for many question types”,并且已经优于维基内置的搜索引擎。最后返回大概5篇与问题有关的文章,重点在第二部分 Document Reader。

7.这里公式较为复杂,真想研究可以看论文,认真读可以看懂。最后选择出正确答案的方法论是:找到某个位置i,使得Pstart(i)×Pend(i0)的概率最大, (i ≤ i0 ≤ i + 15),这里Pstart(i)指的是位置i是答案开头的概率。

8.还有一点要提的是SQUAD数据集有个好处,它不仅给出了“问题-答案”对,还给出了相对应的维基中的文本,这就很适用于训练DRQA这个模型。但是其他一些数据集如WEBQUESTION,没有给出对应文本。这里作者用了远程监督的方式自动产生文本,并作为训练材料 。

9.performance

10.结论与不足

本文真的用了很多综合的方法:“ Our method integrates search, distant supervision, and multitask learning to provide an effective complete system. ”,具有一定开创性。

不足在于当前DRQA的训练还停留在单个paragraph,没有利用多段之间的信息。

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值