自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 强化学习笔记——马尔可夫决策过程MDP

策略函数可以是确定性的,即对于每个状态只选择一个行动,也可以是随机的,即对于每个状态选择一个行动的概率分布。够获得的长期累积奖励。动作值函数表示在给定状态和行动下,智能体能够获得的长期累积奖励的期望值。其中,Q(s, a)表示在状态s下选择行动a的动作值函数,α是学习率,r是即时奖励,γ是折扣因子,s’是下一个状态,a’是在下一个状态下根据当前策略选择的行动。其中,Q(s, a)表示在状态s下选择行动a的动作值函数,α是学习率,r是即时奖励,γ是折扣因子,s’是下一个状态,a’是在下一个状态下选择的行动。

2023-11-15 00:48:02 454

原创 关于机器学习相关模型的笔记

系统地总结了机器学习的几个常见模型以及模型的调参

2023-03-29 16:39:51 87

原创 python创建虚拟环境---virtualenv

python虚拟环境其中一种安装方式

2023-02-28 23:47:50 158 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除