自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 马尔可夫决策过程 (2)

这两节(1章)从零开始介绍了马尔可夫决策过程的基础概念知识,并讲解了如何通过求解贝尔曼方程得到状态价值的解析解以及如何用蒙特卡洛方法估计各个状态的价值。马尔可夫决策过程是强化学习中的基础概念,强化学习中的环境就是一个马尔可夫决策过程。我们接下来将要介绍的强化学习算法通常都是在求解马尔可夫决策过程中的最优策略。

2024-07-09 17:35:58 1249

原创 马尔可夫决策过程 (1)

马尔可夫决策过程(Markov decision process, MDP)是强化学习的重要概念。前面两章所讲的环境其实就是一个马尔可夫决策过程。我们之前讲到的老虎机问题不算一个MDP问题,是因为MDP还包括状态信息以及状态信息之间的转移。MDP是强化学习问题在数学上的理想化形式,他其实就是一种通过交互式学习来实现目标的理论框架。

2024-07-08 19:27:38 731

原创 强化学习 --K臂老虎机(2)

在前一节我们提出了一个强化学习经典问题“K臂老虎机”,并将这个问题数学形式化,并将求解“最大奖励概率分布”变换为求解“”问题。之后又给出了K臂老虎机的环境生成问题,以及解决K臂老虎机算法的框架。在这节中,我们将会实现几个策略来解决K臂老虎机问题。

2024-07-07 12:09:56 752

原创 K臂赌博机(1)

对强化学习经典问题"多臂老虎机"进行了分析,并将其问题进行数据公式化.提出如何构建多臂老虎机环境以及多臂老虎机算法框架,为后续策略做基础工作。

2024-07-06 12:25:21 855

原创 初识强化学习

初始强化学习,介绍强化学习的要素。

2024-07-04 21:14:47 753

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除