- 博客(4)
- 收藏
- 关注
原创 强化学习(一)——基础篇
先将全问题分出一个小的子问题,解决后,再划分出包含上一个子问题的稍大的子问题,以此类推,直至解决整个全问题。(子问题是嵌套的,要递归的去求解)状态值函数表示从状态s出发得到的累积折扣奖励的期望,状态s下执行什么动作是不确定的;动作值函数表示从状态s出发,确定执行动作a以后的累积折扣奖励的期望。r=r(s,a,s') 已知当前状态和执行的动作,以及下一个状态。从状态s出发,执行动作a后,得到的累积折扣奖励的期望。表示在St状态下,执行动作At后的所有即时奖励的累积。,从状态s出发的累积折扣奖励的期望。
2023-10-27 15:58:54 452 1
原创 机器学习(一)——基础篇
1.特征向量:一个数据集中的每条记录是关于一个事件或对象的描述,称为一个示例,也叫一个特 征向量。2.训练数据:训练过程中使用的数据称为训练数据,其中每个样本称为一个“训练样本”3.
2023-10-24 16:44:35 772
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人