![](https://img-blog.csdnimg.cn/direct/b0ea48f86f004c5c8dc3975380a9d061.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
强化学习
文章平均质量分 97
深入强化学习世界,解析算法原理,分享实践案例,助你掌握智能决策与策略优化。
格兰芬多_未名
找到自己的目标和方向是一件很幸福的事
展开
-
强化学习入门:基本概念【MDP、策略、价值函数】
本文介绍强化学习的基本概念,马尔可夫决策过程、回报、策略、价值函数(state value function and action value function)原创 2024-03-20 11:24:46 · 1150 阅读 · 0 评论 -
基于强化学习DQN的股票预测【股票交易】
本文介绍利用强化学习的经典模型——DQN来进行对股票的建模和交易,实验结果表明,在简单的交易环境设置下,该模型能帮助我们在股票交易中赚钱。原创 2024-06-27 15:06:18 · 1152 阅读 · 0 评论 -
强化学习:值函数近似【Deep Q-Network,DQN,Deep Q-learning】
DQN的提出是深度强化学习领域的重要里程碑,它展示了深度学习在强化学习中的巨大潜力,本文介绍强化学习中的值函数近似方法,以及经典的DQN模型。原创 2024-06-27 14:56:27 · 805 阅读 · 0 评论 -
强化学习:时序差分法【Temporal Difference Methods】
本节介绍强化学习中经典的时序差分方法(Temporal Difference Methods,TD)。与蒙特卡洛(MC)学习类似,TD学习也是`Model-free`的,但由于其**增量形式**在效率上相较于MC方法具有一定的优势。原创 2024-05-06 17:00:12 · 1026 阅读 · 0 评论 -
强化学习实例分析:CartPole【蒙特卡洛方法】
本文基于gym库的cartpole环境来实现强化学习里的Monte Carlo 算法原创 2024-04-24 19:47:22 · 713 阅读 · 0 评论 -
强化学习多臂老虎机介绍【Multi-armed Bandits】
Bandit(老虎机、赌博机)问题是强化学习领域中的一个经典问题,老虎机是一种用于赌博的机器,下拉老虎机的机械手臂,我们可以随机获得一个奖励。在赌场中,我们常常能看见很多老虎机被摆在一排,我们可以选择去下拉其中任何一只手臂,在强化学习中我们称为多臂老虎机(Multi-armed Bandits)问题。原创 2024-04-24 14:29:45 · 1716 阅读 · 0 评论 -
Robbins-Monro(RM)算法【随机近似】
随机近似(Stochastic Approximation)是指用于解决寻根或优化问题的一类广泛的随机迭代算法。与许多其他求根算法(如梯度下降法、牛顿法)相比,随机近似的强大之处在于它不需要目标函数的表达式或其导数。Robbins-Monro (RM)算法是随机近似领域的开创性工作。原创 2024-04-22 14:47:52 · 1613 阅读 · 0 评论 -
蒙特卡洛方法(Monte Carlo)【强化学习】
前面介绍的值迭代和策略迭代算法,我们都假设模型已知,也就是环境的动态特性(比如各种概率)我们都预先知道。然而在实际问题中,我们可能对环境的动态特性并不是那么清楚,但是我们可以得到足够多的数据,那么我们同样可以用强化学习来建模解决这个问题,这类不利用模型的算法被称为`Model-free`的方法。`Monte Carlo`方法便是一种`Model-free`的方法。原创 2024-04-10 14:36:57 · 1040 阅读 · 0 评论 -
强化学习实例分析:GridWorld【值迭代和策略迭代算法Python实现】
在前面的章节,我们探讨了强化学习中两个关键算法:值迭代和策略迭代的数学原理.本节我们在Gridworld的场景下实现Value iteration和Policy iteration这两个算法.原创 2024-04-10 13:20:06 · 1412 阅读 · 0 评论 -
值迭代和策略迭代【强化学习】
值迭代和策略迭代是强化学习中两种基本的方法,用于解决马尔可夫决策过程(MDP)的优化问题。它们都旨在找到一个最优的策略,以在给定环境下实现最大的累积奖励。原创 2024-03-22 10:26:18 · 1253 阅读 · 0 评论 -
强化学习:贝尔曼最优方程【BOE】
上一节讲了贝尔曼方程,这一节继续在贝尔曼方程的基础上讲贝尔曼最优方程,后面的策略迭代和值迭代算法都是根据贝尔曼最优方程来的.原创 2024-03-21 09:04:23 · 1114 阅读 · 1 评论 -
贝尔曼方程【Bellman Equation】
贝尔曼方程(Bellman Equation),也称为贝尔曼期望方程,用于计算给定策略π时价值函数在策略指引下所采轨迹上的期望。原创 2024-03-20 11:31:07 · 2855 阅读 · 0 评论