【强化学习的数学原理-赵世钰】课程笔记
文章平均质量分 93
leaf_leaves_leaf
用于自己记录,防止过两天又忘了,防止没有师兄师姐自己又不会了
展开
-
【强化学习的数学原理-赵世钰】课程笔记(十)Actor-Critic 方法
万字长文,环环相扣,详细介绍强化学习的 policy gradient 方法, Actor-Critic 方法和 DPG,DDPG方法,会持续更新原创 2024-04-19 14:49:58 · 777 阅读 · 0 评论 -
【强化学习的数学原理-赵世钰】课程笔记(九)策略梯度方法(Policy Gradient Method)
万字长文,环环相扣,详细介绍强化学习基于策略的 policy gradient 的方法,会持续更新原创 2024-04-16 10:55:29 · 1012 阅读 · 0 评论 -
【强化学习的数学原理-赵世钰】课程笔记(八)值函数近似(value function approximation)
万字长文,环环相扣,详细介绍强化学习 DQN 和值函数近似(value function approximation)的原理,会持续更新原创 2024-04-09 11:11:26 · 1049 阅读 · 1 评论 -
【强化学习的数学原理-赵世钰】课程笔记(七)时序差分方法
万字长文,环环相扣,详细介绍 TD 算法(TD 和 Sarsa 算法)和 Q-learning 的数学原理,会持续更新原创 2024-03-10 21:18:17 · 1364 阅读 · 4 评论 -
【强化学习的数学原理-赵世钰】课程笔记(六)随机近似与随机梯度下降
万字长文,详细介绍强化学习中的随机近似与随机梯度下降(随机梯度下降对比 BGD,MBGD 和 SGD),看完本文可以更好的理解经典强化学习算法,比如时序差分算法(TD算法)原创 2024-01-06 13:10:43 · 1464 阅读 · 2 评论 -
【强化学习的数学原理-赵世钰】课程笔记(五)蒙特卡洛方法
万字长文,详细介绍强化学习中的蒙特卡洛方法,会持续更新原创 2024-01-03 21:27:01 · 1284 阅读 · 1 评论 -
【强化学习的数学原理-赵世钰】课程笔记(四)值迭代与策略迭代
详细介绍强化学习中的值迭代与策略迭代,有案例有推导,环环相扣,会持续更新原创 2024-01-02 16:56:47 · 1583 阅读 · 0 评论 -
【强化学习的数学原理-赵世钰】课程笔记(三)贝尔曼最优公式
详细介绍强化学习中的贝尔曼最优公式,包含具体例子和数学原理,会持续更新原创 2024-01-01 21:54:51 · 1583 阅读 · 0 评论 -
【强化学习的数学原理-赵世钰】课程笔记(二)贝尔曼公式
学习强化学习的笔记,详细介绍贝尔曼公式(包含推导,有具体例子),会持续更新原创 2023-12-31 17:00:49 · 1318 阅读 · 0 评论 -
【强化学习的数学原理-赵世钰】课程笔记(一)基本概念
在B站上学习强化学习的课程笔记,笔记非常详细清晰,会持续更新原创 2023-12-30 14:28:41 · 1306 阅读 · 1 评论