【斯坦福博士论文】在复杂环境中决策学习内容

来源:专知
本文约1000字,建议阅读5分钟
本论文的研究重点在于提出一套有理论依据且具有实践可行性的探索策略,用以应对复杂环境中的探索问题。

图片

强化学习是一种专注于序贯决策问题的机器学习范式。与机器学习和统计学的其他许多领域一样,数据效率常常是一个核心关注点——也就是说,一个序贯决策代理需要多少试错式的交互数据,才能学会期望的行为?实现高数据效率的强化学习所面临的关键障碍之一是“探索”的挑战:代理需要在获取环境新知识与利用当前知识以实现近期性能最大化之间进行权衡。

传统关于探索与利用之间权衡的文献,主要聚焦于那些代理能够在可接受的时间范围内接近最优性能的环境。然而,现代的人工决策代理往往面临更加复杂的环境,例如万维网,在这类环境中,期望在任何现实的时间尺度内接近最优表现几乎是不可能的。

本论文的研究重点在于提出一套有理论依据且具有实践可行性的探索策略,用以应对复杂环境中的探索问题。我们的方法基于一个简单但深刻的观察:面对复杂环境时,代理无需试图获取实现最优行为所需的全部信息,而应转而追求一组“适度”的信息。这些信息虽不足以支持近乎最优的表现,但足以推动行为的持续改进。

我们设计了一种代理,其探索策略围绕上述思想展开,并从理论和实证两个角度对其行为进行了分析。实际上,该代理在每一个时间步骤上都在进行“学什么”的决策,以在信息需求和性能之间实现期望的权衡。

正如本论文所阐明的,构建此类代理的核心思想,源于信息论与有损压缩中的经典工具。这些工具不仅为我们提供了理论上的严谨性保证,也具备良好的可扩展性,使得在实际系统中部署成为可能。

图片

关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值