AMiner论文推荐——Data-Efficient Reinforcement Learning for Malaria Control

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱,提供学者评价、专家发现、智能指派、学术地图等科技情报专业化服务。系统2006年上线,吸引了全球220个国家/地区1000多万独立IP访问,数据下载量230万次,年度访问量超过1100万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。


IJCAI 2021 论文推荐

Data-Efficient Reinforcement Learning for Malaria Control

论文链接:https://www.aminer.cn/pub/60927e0d91e0113f3a7054c5/?conf=ijcai2021

推荐理由: 成本敏感任务下的顺序决策是困难的,特别是对人们日常生活有重大影响的问题,例如,疟疾控制、治疗建议。政策制定者面临的主要挑战在于通过与复杂环境的互动,在少数试验中从头开始学习一项政策。该工作介绍了一种实用的、数据高效的政策学习方法,名为Variance-Bonus Monte Carlo Tree Search(VB-MCTS),能够利用少量数据进行复制,只需进行几次试验就能促进从头学习。具体来说,该方案是一种基于模型的强化学习方法。为了避免模型的偏差,作者应用高斯过程(GP)回归来明确地估计过渡。基于GP世界模型,作者提出了一个方差奖励来衡量世界的不确定性。多项式样本复杂度表明VB-MCTS具有很高的样本效率。同时,在世界级RL竞赛中的出色表现和广泛的实验结果验证了该方法在具有挑战性的疟疾控制任务中较最先进的方法更有优势。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

AMiner,AI赋能的学术搜索平台:https://www.aminer.cn/

#AMiner# #论文#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值