强化学习
文章平均质量分 90
star_w10086
这个作者很懒,什么都没留下…
展开
-
强化学习笔记-免模型预测
在有模型强化学习中,智能体尝试先学习环境模型,该模型可以是环境的动态或奖励函数。换句话说,给定一对状态-动作,它可以预测下一个状态或产生的奖励。利用这个环境模型,智能体可以计划最佳的行动策略,例如通过模拟可能的未来状态来预测哪个动作会导致最大的累积奖励。模型强化学习的优点是可以在不与真实环境交互的情况下进行学习,因此可以节省实验的成本。但缺点是,这种模型往往难以精确表现环境或者由于复杂度太高而难以学习和计算。相比之下,免模型强化学习则直接学习在特定状态下执行特定动作的价值或优化策略。原创 2023-12-21 08:28:19 · 910 阅读 · 0 评论 -
强化学习笔记-马尔可夫决策过程
以数学的形式来描述智能体在与环境交互的过程中学到一个目标的过程。智能体充当的是作出决策或动作,并且在交互过程中学习的角色,环境指的是智能体与之交互的一切外在事物,不包括智能体本身。原创 2023-12-21 08:27:27 · 1562 阅读 · 0 评论 -
强化学习笔记-基本概念与方向
离线强化学习( offline reinforcement learning ),即在离线环境中进行训练,然后将训练好的模型部署到在线环境中进行决策。在探索的过程中,智能体会尝试一些未知的动作,从而可能会获得更多的奖励,但同时也可能会遭受到惩罚。而在利用的过程中,智能体会选择已知的动作,从而可能会获得较少的奖励,但同时也可能会遭受较少的惩罚。在实际应用中,智能体往往需要在实时或者在线环境中进行决策,在这种情况下训练不仅会降低效率(实时环境响应动作更慢),而且还会带来安全隐患(训练过程中可能会出现意外)。原创 2023-12-15 16:53:40 · 51 阅读 · 0 评论