机器阅读理解那些事儿

今日,“机器之心”公众号刷爆了超强小姐姐陈丹琦的文章,笔者前两天也刚看了小姐姐的论文,当时无意中点开开源的github链接,发现小姐姐一路绿灯的github也是十分敬佩!
在这里插入图片描述
再放一张小姐姐的主页图片,再次膜拜下~
在这里插入图片描述
小姐姐做的方向是机器阅读理解和智能问答(QA),博主也看了一段时间的该方向论文,现在来聊一聊机器阅读理解中的世界~
阅读理解,其实我们大家从小到大都在做,从语文阅读理解到英语阅读理解,这类题型也伴随了我们的整个学生生涯。
那么所谓机器阅读理解,一样哒~就是让计算机来理解文章,并且来回答相应的问题。
在深度学习出现之前,大多机器阅读理解都是通过机器学习抽取式来进行抽取答案的,深度学习出现之后,尤其斯坦福大学公布SQuAD阅读理解数据集后,很多公司、高校都开始争先恐后地去刷榜,也极大促进了机器阅读理解的发展。

机器阅读理解的发展

起初,阅读理解数据集是完型填空式、简单对话抽取式,代表的数据集有CNN/Daily Mail和Children Book Test(CBT)数据集。
但这些数据集比较小,很快被当时的SOTA模型做到了top值,后来斯坦福发布了SQuAD数据集,也掀起了一波刷榜高潮,国内外大公司、高校纷纷提交了不错的成绩,极大促进了机器阅读理解的发展。以上数据集都是类似于考试中的阅读理解题目,答案就在文中~
后来出现了开放式阅读理解数据集TriviaQA以及阅读理解多选题数据集RACE等。开放式阅读理解数据集,问题的答案不一定固定在文中,需要对多篇文章进行理解从而回答。而阅读理解多选题数据集就是我们的中考、高考英语考试的阅读理解题目,有多个选项,需要选出最合适的一项。
在数据集公布的同时,各个阅读理解模型也纷纷发表出来,BiDAF、R-Net、AoA等等,在谷歌Bert发布之后,各大榜单前排也纷纷使用上了Bert来上分。
下图是近年来机器阅读理解发展的过程:
在这里插入图片描述

各大阅读理解榜单

1.SQuAD榜单
(https://rajpurkar.github.io/SQuAD-explorer/)
2.CoQA榜单
(https://stanfordnlp.github.io/coqa/)
3.Who-did-What榜单(https://tticnlp.github.io/who_did_what/leaderBoard.html)
4.HotpotQA(火锅)榜单
(https://hotpotqa.github.io/)

最后分享下清华大学推荐的阅读理解论文列表(https://github.com/thunlp/RCPapers)

  • 4
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值