李宏毅深度强化学习笔记(一)Outline
最新推荐文章于 2024-08-19 16:25:00 发布
本文是李宏毅深度强化学习课程的笔记概述,介绍了课程评价、强化学习的基本概念和特点,如推迟得到的回报和采取行动对后期数据的影响。文章列举了强化学习的应用实例,如Alpha GO和聊天机器人,并概述了Policy-based和Value-based方法。后续笔记将详细讨论Actor-Critic算法。
摘要由CSDN通过智能技术生成