自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 李升波-《强化学习与控制》-Lecture 11(2023年春季)

本课程是由清华大学李升波教授主讲的《强化学习与控制》(2023年春季),课程结合自动驾驶汽车的决策控制实例开展教学,培养学生分析被控对象、构造及求解强化学习问题的基本能力。本讲为第11讲,主要介绍介绍RL的各类拾遗,包括POMDP、鲁棒性、多智能体、元学习、逆强化学习以及训练平台等。

2023-05-08 11:21:08 141 2

原创 李升波-《强化学习与控制》-Lecture 10(2023年春季)

本课程是由清华大学李升波教授主讲的《强化学习与控制》(2023年春季),课程结合自动驾驶汽车的决策控制实例开展教学,培养学生分析被控对象、构造及求解强化学习问题的基本能力。本讲为第10讲,主要介绍了状态约束的处理手段以及它与可行性之间的关系,讲述了安全保障的基本机制与训练策略。

2023-05-06 09:57:23 72

原创 李升波-《强化学习与控制》-Lecture 9(2023年春季)

本课程是由清华大学李升波教授主讲的《强化学习与控制》(2023年春季),课程结合自动驾驶汽车的决策控制实例开展教学,培养学生分析被控对象、构造及求解强化学习问题的基本能力。本讲为第9讲,主要介绍带模型的强化学习,即近似动态规划,尤其是离散时间系统的ADP,无穷时域ADP与有限时域ADP,以及ADP与MPC的关联分析等。

2023-05-06 09:52:37 74

原创 李升波-《强化学习与控制》-Lecture 8(2023年春季)

本课程是由清华大学李升波教授主讲的《强化学习与控制》(2023年春季),课程结合自动驾驶汽车的决策控制实例开展教学,培养学生分析被控对象、构造及求解强化学习问题的基本能力。本讲为第8讲,主要介绍深度强化学习,即以神经网络为载体的RL,包括深度化典型挑战、经验性处理技巧等。

2023-05-06 09:49:22 95

原创 李升波-《强化学习与控制》-Lecture 7(2023年春季)

本课程是由清华大学李升波教授主讲的《强化学习与控制》(2023年春季),课程结合自动驾驶汽车的决策控制实例开展教学,培养学生分析被控对象、构造及求解强化学习问题的基本能力。本讲为第7讲,介绍直接型RL的策略梯度法,包括各类Policy Gradient, 以及如何从优化的观点看待RL等。

2023-05-06 09:44:20 68

原创 李升波-《强化学习与控制》-Lecture 6(2023年春季)

本课程是由清华大学李升波教授主讲的《强化学习与控制》(2023年春季),课程结合自动驾驶汽车的决策控制实例开展教学,培养学生分析被控对象、构造及求解强化学习问题的基本能力。本讲为第6讲,主要介绍间接型RL的函数近似方法,包括常用近似函数,值函数近似,策略函数近似以及所衍生的Actor-critic架构等。

2023-05-06 09:41:05 65

原创 李升波-《强化学习与控制》-Lecture 5(2023年春季)

本课程是由清华大学李升波教授主讲的《强化学习与控制》(2023年春季),课程结合自动驾驶汽车的决策控制实例开展教学,培养学生分析被控对象、构造及求解强化学习问题的基本能力。本讲为第5讲,主要介绍带模型学习的动态规划法,包括策略迭代、值迭代、收敛性原理等。

2023-05-06 09:37:02 92

原创 李升波-《强化学习与控制》-Lecture 4(2023年春季)

本课程是由清华大学李升波教授主讲的《强化学习与控制》(2023年春季),课程结合自动驾驶汽车的决策控制实例开展教学,培养学生分析被控对象、构造及求解强化学习问题的基本能力。本讲为第4讲,主要介绍免模型学习的时序差分法,包括它衍生的Sarsa,Q-learning,Expected Sarsa等算法。

2023-03-24 12:50:23 96

原创 李升波-《强化学习与控制》-Lecture 3(2023年春季)

本课程是由清华大学李升波教授主讲的《强化学习与控制》(2023年春季),课程结合自动驾驶汽车的决策控制实例开展教学,培养学生分析被控对象、构造及求解强化学习问题的基本能力。本讲为第3讲,主要介绍免模型学习的蒙特卡洛法,包括Monte Carlo估计,On-policy/off-policy,重要性采样等。

2023-03-24 11:46:24 89

原创 李升波-《强化学习与控制》-Lecture 2(2023年春季)

本课程是由清华大学李升波教授主讲的《强化学习与控制》(2023年春季),课程结合自动驾驶汽车的决策控制实例开展教学,培养学生分析被控对象、构造及求解强化学习问题的基本能力。本讲为第2讲,主要介绍RL的基础知识,包括定义概念、自洽条件、最优性原理问题架构等。

2023-03-24 11:40:03 100

原创 李升波-《强化学习与控制》-Lecture 1(2023年春季)

本课程是由清华大学李升波教授主讲的《强化学习与控制》(2023年春季),课程结合自动驾驶汽车的决策控制实例开展教学,培养学生分析被控对象、构造及求解强化学习问题的基本能力。第1讲主要介绍RL概况,包括发展历史、知名学者、典型应用以及主要挑战等。

2023-03-24 11:31:58 181

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除