独家 | 年度盘点!必看AI顶会论文、Github高星项目大合集(附链接)

本文盘点了2019年人工智能领域的顶级会议AAAI、IJCAI、ICCV及EMNLP的获奖论文,包括强化学习、多智能体协作、编程教育、图像生成等多个领域的突破。同时,还推荐了多个Github上的高星项目,涵盖深度学习、自然语言处理、图像识别和机器学习等方面,是学习和研究的宝贵资源。
摘要由CSDN通过智能技术生成

目前,国外计算机界评价学术水平主要是看在顶级学术会议上发表的论文,特别是在机器学习、计算机视觉和人工智能领域,顶级会议才是王道。本期我们盘点了2019年人工智能领域的顶会,如最核心的顶会AAAI、IJCAI、ICCV,以及“后起之秀”EMNLP 获奖的论文。此外,我们还盘点了Github上的高星项目,满满干货大合集,大家拿走不谢哦!

 

AAAI 2019获奖论文

 

论文1:How to Combine Tree-Search Methods in Reinforcement Learning

作者:Yonathan Efroni、Gal Dalal、Bruno Scherrer 和 Shie Mannor

论文地址:https://arxiv.org/abs/1809.01843

推荐:这篇论文获得了杰出论文奖。有限时长的前瞻策略方法在强化学习中有着广泛的应用,这类方法在实证研究中展现出了优秀的价值。通常,前瞻策略方法在应用的时候都会搭配一些具体的规划方法,比如蒙特卡洛树搜索(AlphaZero 中就是这样做的)。对于看作是树搜索的规划问题,算法实现中的一种合理做法是只在叶子节点上备份值,同时在根节点上获得的值只会用来更新策略。在这篇论文中,作者们质疑了这种方法的表现。具体来说,这种做法并不具备一般化的收缩性,也无法保证收敛。作者们提出的改进方法思路直接而且简单:用最优的树路径的返回值备份根节点的子节点的值。这会带来 γh的收缩过程,其中 γ 是折扣系数,h 是树的深度。为了表明这种方法的效果,作者们首次提出了一个名为"多步贪婪持续性"的想法。作者们编写了两个以上改进的算法实例,并在树搜索阶段和值估计阶段都注入噪声的状况下提供了收敛速率结果。

 

论文2:Solving Imperfect-Information Games via Discounted Regret Minimization

作者:Noam Brown、Tuomas Sandholm

论文地址:https://arxiv.org/abs/1809.04040

推荐:这篇论文获得了杰出论文荣誉提名奖。反事实后悔最小化(CFR)是一类最为火热的迭代算法,而且在实际应用中也是可以最快逼近解决大规模非完全信息博弈的方法。这篇论文中作者们提出了一种新的 CFR 变体,它的特点是:

  1. 通过多种不同的方式,给较早的迭代中的后悔值打上折扣(在某些情况下,正值和负值的折扣比例会有所不同);

  2. 迭代得到输出策略的过程中,通过多种不同的方式给不同的迭代赋予不同的权重;

  3. 使用了一个非标准的后悔最小化优化器;

  4. 使用了"乐观后悔匹配"。

在多种设定下,这些改进都可以让方法的表现得到大幅度提高。具体来说,作者们提出的某一种变体在所有测试了的博弈中都比此前的最佳表现算法 CFR+ 表现更好,包括在一些大规模的真实设定中。而此前,CFR+ 一直是一个令人敬畏的基准模型,没有任何别的模型表现比它更好。最后作者们也展示了,与 CFR+ 不同,根据作者们提出的改进点设计的新 CFR 变体与现有的许多非完全信息博弈中的剪枝策略都是兼容的,而且其中也有一种和博弈树中的采样兼容。

 

论文3:Zero Shot Learning for Code Education: RubricSampling with Deep Learning Inference

作者:Mike Wu、Milan Mosse、Noah Goodman 和 Chris Piech

论文链接:https://arxiv.org/abs/1809.01357

推荐:这篇论文获得了杰出学生论文奖。在现代计算机科学教育中,大规模开放在线课程(MOOCs)在提供在线教育的同时也会记录下数千小时的学习过程,其中包括了学生如何解决编程题目的过程。既然手握这么多数据,这些平台也就引起了机器学习领域的研究人员们的兴趣,他们开发了许多新的算法,尝试以提供自动化反馈的方式帮助未来的学生们更好地学习。不过,提供了最初的几十万小时的训练数据的学生们怎么办呢?在大多数教学场景下,想要为课后作业设计监督学习系统都会遇到历史数据不足的问题。

在这篇论文中,作者们提出了一种人参与其中的"提示采样"方法,专门用来处理早期的"无样本学习"问题。对于在入门难度的编程作业中提供自动反馈的任务,相比于以往的需要数据喂养的方法,作者们提出的新方法为第一批学生们提供的反馈有显著的质量提高,而且接近了人类级别的可信度。提示采样需要老师付出的精力最小,可以提供和学生的回答的具体部分相关的反馈,而且可以使用指导者的语言指出学生的误解之处。深度学习推理的使用,让指示采样在未来有更多基于不同的作业的学生数据可用时也能发挥出更好的表现。作者们从全世界最大的编程教育平台 Code.org 采集了一个新数据集并在上面展示了方法的表现。

 

论文4:Learning to Teach in Cooperative Multiagent Reinforcement Learning

作者:Shayegan Omidshafiei、Dong-Ki Kim、Miao Liu、Gerald Tesauro、Matthew Riemer、Christopher Amato、Murray Campbell 和 Jo

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值