自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 datawhale学习-深度强化学习7:DQN算法

深度神经网络就是一个函数,将输入向量x映射到输出向量y,并且拥有可以学习的参数,这些参数使用梯度下降的方法来优化。Q表可以近似动作价值函数Q(s,a),将状态向量s作为输入,并输出所有动作a=(a1,a2,...,an)对应的价值。Q表是一个二维表格,只能处理离散的状态和动作空间,神经网络则可以处理连续的输入,并且可以处理高维的状态空间。Q表中我们描述状态空间一般用的是状态个数,神经网络则是状态维度。无论是Q表还是神经网络,它们输出的都是预测,而不是直接输出动作。

2024-01-16 13:44:12 856 1

原创 datawhale学习-深度强化学习2:马尔可夫决策过程

折扣因子取值在0到1之间,表示了在考虑未来奖励是的重要程度,控制着当前奖励与未来奖励的权衡,即对长远目标的关注度。交互是在离散的时步交互的,t=0,1,2,...在每个t,智能体接受st,然后执行动作at,执行完会受到奖励rt+1以及环境会由于at变成新的状态st+1,以此循环下去。一般是有限马尔可夫决策过程,即t是有限的,上限记为T,也就是交互过程的最大步数,t=0,到t=T,称为一个回合(episode)。即给定历史状态下,st+1的状态只与st有关,而与s0,s1,s2,...,st-1的状态无关。

2024-01-15 16:22:15 924

原创 datawhale学习-深度强化学习1:绪论

在多个智能体的环境下进行强化学习,通常存在非静态问题,即环境的状态不仅由智能体的动作决定,还受到其他智能体的动作影响。其次存在信号问题,即智能体之间可以通信来合作或竞争。

2024-01-15 14:21:12 354

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除