![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
文章平均质量分 89
Dilettante258
学习强化学习中……
展开
-
强化学习基础-时序差分算法
书接上一节动态规划算法适用于已知马尔可夫决策过程的情况,可以直接解出最优价值或策略。但在大部分情况下,马尔可夫决策过程的状态转移概率是未知的,这时就需要使用无模型的强化学习算法。无模型的强化学习算法不需要事先知道环境的奖励函数和状态转移函数,而是通过与环境交互采样数据来学习。模型无关的强化学习直接从经验中学习值(value)和策略 (policy),而无需构建马尔可夫决策过程模型(MDP)。关键步骤:(1)估计值函数;(2)优化策略。原创 2023-12-30 12:17:15 · 851 阅读 · 1 评论 -
强化学习基础-动态规划算法
动态规划(dynamic programming)能够高效解决一些经典问题,例如背包问题和最短路径规划。动态规划的基本思想是将待求解问题分解成若干个子问题,先求解子问题,然后从这些子问题的解得到目标问题的解。动态规划会保存已解决的子问题的答案,在求解目标问题的过程中,需要这些子问题答案时就可以直接利用,避免重复计算。原创 2023-10-29 13:31:36 · 115 阅读 · 0 评论 -
强化学习基础-马尔可夫决策过程
马尔可夫决策过程(Markov decision process,MDP)是强化学习的重要概念。强化学习中的环境一般就是一个马尔可夫决策过程。与多臂老虎机问题不同,马尔可夫决策过程包含状态信息以及状态之间的转移机制。原创 2023-10-29 13:24:31 · 141 阅读 · 0 评论 -
强化学习初探
强化学习是机器通过与环境交互来实现目标的一种计算方法。在每一轮交互中,智能体(agent)感知环境状态,做出动作决策,并将动作作用于环境中。环境根据智能体的动作产生即时奖励信号,并改变状态。智能体通过感知新的环境状态,不断迭代交互,以最大化累积奖励的期望。与有监督学习不同,强化学习中的智能体可以感知环境信息并直接改变环境。原创 2023-10-29 13:10:38 · 57 阅读 · 0 评论 -
Ubuntu 20.04 LTS安装老版本强化学习环境 gym0.19.0 记录
入门机器学习的第一只拦路虎就是配置环境,一些经典教材和教程的上的那些代码都是在几年前写作的,然后呢,这些过时的代码也就相应需要配置那些环境。本文在Ubuntu 20.04 LTS环境下安装并配置了gym 0.19.0环境,使得一些函数如env.seed()得以使用。原创 2023-10-18 19:23:03 · 772 阅读 · 1 评论