自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 强化学习知识总结(三):马尔可夫决策过程

在第二篇总结中,提到的多臂老虎机中,每一次交互的结果与以往的动作无关,而现实中我们所讨论的强化学习无法避免状态迁移的问题,在谈及具体的强化学习算法之前,有必要掌握马尔可夫决策过程的状态转移机制。

2024-02-19 02:42:46 1174 1

原创 强化学习知识总结(二):多臂老虎机(MAB)问题

但是由于计算所有拉杆的期望奖励的代价比较高,汤普森采样算法使用采样的方式,即根据当前每个动作a的奖励概率分布进行一轮采样,得到一组各根拉杆的奖励样本,再选择样本中奖励最大的动作,可以看出,汤普森采样是一种计算所有拉杆的最高奖励概率的蒙特卡洛采样方法。UCB算法的思想是在每次选择拉杆前,先估计拉动每根拉杆的期望奖励上界,使得拉动每根拉杆的期望奖励只有一个较小的概率p超过这个上界,接着选出期望奖励上界最大的拉杆,从而选择最有可能获得最大期望奖励的拉杆。此时,上置信界算法便选取期望奖励上界最大的动作,即。

2024-02-15 21:46:36 1648

原创 强化学习知识总结(一)

强化学习是机器通过与环境交互来实现目标的一种计算方法机器和环境的一轮交互是指机器在环境的一个状态下做一个动作决策,把这个动作作用到环境当中,这个环境发生相应的改变并将相应的奖励反馈和下一轮状态传回机器。机器的目标是最大化在多轮交互过程中获得的累计奖励的期望。

2024-02-15 00:00:00 504

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除