强化学习
文章平均质量分 89
本专栏主要介绍强化学习相关理论知识以及案例实战内容
抱抱宝
阿里云专家博主|研究方向:大数据分析、数据挖掘、深度强化学习、运筹优化、数学建模等。
展开
-
在MDP环境下训练强化学习智能体
本文示例展示了如何训练Q-learning智能体来解决一般的马尔可夫决策过程(MDP)环境。有关这些智能体的更多信息,请参阅Q-Learning智能体。原创 2023-10-30 11:44:45 · 503 阅读 · 0 评论 -
Q-learning智能体
Q-learning算法是一种无模型、在线、非策略的强化学习方法。Q-learning算法是一种基于价值的强化学习算法,它训练一个评价网络去估计回报或未来奖励。对于给定的观测值,智能体选择并输出估计收益最大的动作。注:Q-learning算法不支持循环网络。Q-learning智能体可以在具有以下观察和动作空间的环境中进行训练。Q-learning使用如下的评价网络:在训练过程中,智能体使用贪心策略探索来探索动作空间。在每个控制区间内,agent随机选择一个概率为ϵ。原创 2023-10-26 11:23:01 · 108 阅读 · 0 评论 -
Gymnasium的基本用法
等。和,下面的基本用法将介绍这些功能。原创 2023-10-24 19:43:37 · 557 阅读 · 0 评论 -
多臂老虎机问题
多臂老虎机问题原创 2023-04-26 13:26:55 · 1115 阅读 · 1 评论 -
初探强化学习
强化学习基本介绍原创 2023-04-21 18:14:19 · 1156 阅读 · 0 评论