自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1)
  • 收藏
  • 关注

原创 强化学习笔记(一)

1.一个强化学习系统的两个关键元素:奖励(reward)、策略(policy); 奖励(reward):强化学习的学习目标,在做出行动后接收到来自环境的奖励。 策略(policy):决策者根据不同的观测决定采取不同的策略。强化学习的对象。 2.与监督学习、非监督学习的区别; 3.智能体(agent)、环境(environment)的概念及两者之间的交互; 4.强化学习的分类:基于价值、基于策略; 基于价值的强化学习定义了状态或动作的价值函数,来表示到达某种状态或执行某种动作之后获得的回报。基..

2022-03-25 20:57:37 85

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除