强化学习
文章平均质量分 88
Xieyh@CUC
这个作者很懒,什么都没留下…
展开
-
【强化学习笔记-02】多任务深度强化学习
“A Survey of Multi-Task Deep Reinforcement Learning”-2020中文整理:https://zhuanlan.zhihu.com/p/265750570在中文整理的基础上对一些方法进行了补充。存在的问题:普通RL算法在同一环境中跨相关任务的许多场景中的适用性有限本文的目的是survey DRL领域中与多任务相关的研究挑战,并通过比较sota方法——DISTRAL (DIStill & TRAnsfer Learning), IMPALA(Im原创 2021-10-25 11:39:10 · 2767 阅读 · 0 评论 -
【强化学习笔记-01】多臂赌博机问题
参考资料:https://leovan.me/cn/2020/05/multi-armed-bandit/1. 问题描述一个赌徒,要去摇老虎机,走进赌场一看,一排老虎机,外表一模一样,但是每个老虎机吐钱的概率可不一样,他不知道每个老虎机吐钱的概率分布是什么,那么每次该选择哪个老虎机可以做到最大化收益呢?这就是多臂赌博机问题 (Multi-armed bandit problem, MAB)多 臂赌博机问题中,k个动作的每一个在被选择时都有一个期望或者平均收益,称之为这个动作的**“价值”。令 t 时刻原创 2021-10-21 18:39:15 · 293 阅读 · 0 评论