自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 Q-learning算法(笔记)

若动作是连续(无限)的,神经网络的输入是状态和动作,然后输出一个标量,表示在状态下采取动作能获得的价值。问题1,如果要用时序差分算法来准确地估计策略的状态价值函数,我们需要用极大量的样本来进行更新。参考价值迭代章节,我们已经提出了解决方案:我们不再试图用用大量样本得到收敛地状态价值函数(或用状态转移概率求解状态价值),而是用argmax Q(s,a)作为状态价值,并更新策略。由于“自举”,即用神经网络的估测再次更新神经网络,以及求max的规则,神经网络会高估q(s,a)的值,而且会高估会不断累积。

2024-07-22 14:01:56 1235

原创 动态规划算法(笔记)

提示:这里对文章进行总结:例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

2024-07-21 16:24:21 720

原创 马尔可夫决策过程(笔记)

即,t+1时刻的状态只与t时刻状态有关。二者关系:执行动作a后,有即时奖励r(s,a),由概率转移方程及vΠ(s`)得到后续状态的期望回报。在一个马尔可夫奖励过程中,从第t时刻状态开始,直到终止状态时,所有奖励的衰减之和称为回报Gt。状态价值函数:引入动作。动作价值函数:QΠ(s,a)从状态s出发执行动作a得到的期望回报。t时刻动作a价值:即时奖励+折扣因子 * 新状态的状态价值期望。一个状态的期望汇报为该状态价值,所有状态的价值组成价值函数。t时刻状态价值:t时刻状态所有可能的qΠ(s,a)之和。

2024-07-21 15:40:39 726

原创 强化学习策略:探索与利用(笔记)

有一个拥有K根拉杆的老虎机,拉动每一根拉杆都对应一个关于奖励的概率分布。尝试过程中,我们需要在“探索拉杆的获奖概率”和“根据经验选择奖励期望最高的拉杆”进行权衡。也就是exploration or exploition(探索可能或利用经验)。

2024-07-21 14:59:38 147

原创 强化学习笔记

智能体在环境的一个状态下做出一个动作决策,使得环境发生改变并返回相应的奖励。智能体有三种关键要素:感知、决策和奖励。感知:智能体通过传感器等感知环境。决策:智能体根据当前状态选择采取的动作。奖励:环境给予的反馈。最大化累积奖励是智能体提升策略的目标,也是衡量策略好坏的目标。

2024-07-21 14:40:20 201

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除