![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
文章平均质量分 72
洌泉_就这样吧
Less is more.
展开
-
【强化学习纲要】学习笔记之Model-free Prediction and Control
【强化学习纲要】学习笔记系列引入model-free 模型可以针对未知的MDP问题已知的MDPPolicy和Reward都是expose to agent,因此,可以方便地进行policy iteration和value iteration(1) policy evalutaion采用Bellman expectation 进行迭代,此时policy保持不变,将状态空间中的所有state的value进行评估vi(s)=∑a∈Aπ(a∣s)(R(s,a)+γ∑s′∈SP(s′∣s,a)vi−原创 2022-05-17 20:20:45 · 269 阅读 · 0 评论 -
【强化学习纲要】学习笔记之Markov Decision Processes
【强化学习纲要】学习笔记系列Markov Chain → Markov Reward Process(MRP)→ Markov Decision Processes(MDP)MDP基本假设:环境是完全可观测的MDP可以用于处理最优控制问题,根据环境确定出最佳控制策略部分可观测的问题可以转化为MDPMarkov Process未来状态依赖于给定的历史状态历史状态:ht={s1,s2,…,st}h_t = \{s_1, s_2, \dots, s_t\}ht={s1,s2,…,st原创 2022-05-13 14:44:05 · 411 阅读 · 0 评论 -
【强化学习纲要】学习笔记之Overview
【强化学习纲要】学习笔记系列定义与应用场景Prerequisite学习RL之前需要学习的知识:线性代数、概率、机器学习相关(数据挖掘、模式识别、深度学习等)编程能力:Python,PyTorchRL定义A computational approach to learning whereby an agent tries to maximize the total amount of reward it receives while interacting with a complex an原创 2022-05-13 10:16:44 · 207 阅读 · 0 评论 -
【强化学习纲要】学习笔记
近期跟着Bolei大神学习《强化学习纲要》系列课程,记录学习心得,不断提升(B站学习链接)强化学习纲要讲义(链接: 百度网盘 提取码: bfiu )系列课程:Foundation 部分Lecture 1: OverviewLecture 2: Markov Decision ProcessesLecture 3: Model-free Prediction and ControlLecture 4: On-policy and Off-policy LearningLecture 5:原创 2022-05-13 08:49:27 · 262 阅读 · 0 评论 -
【强化学习】入门概念
内容源自:https://www.bilibili.com/video/BV13a4y1J7bw?spm_id_from=333.337.search-card.all.click定义强化学习是Agent在与特定环境的互动当中为了达成某一目标而进行的学习过程基本元素Agent:对象Environment:环境Goal:目标主要元素State:Agent在环境中所处的状态Action:Agent在Policy指导下,对特定State做出的反应Reward:拆解Goal,以Value为原创 2022-04-18 11:34:07 · 91 阅读 · 0 评论