![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
文章平均质量分 84
木白CPP
工欲善其事,必先利其器
展开
-
快速安装TensorFlow2.0(windows,CPU,PyCharm,2023)
TensorFlow2.0安装和基本使用(windows11,CPU,PyCharm,2023)原创 2023-03-14 15:34:44 · 1962 阅读 · 2 评论 -
时序差分学习(TD)
时序差分学习 -原创 2023-03-14 11:18:00 · 492 阅读 · 0 评论 -
马尔可夫决策过程和贝尔曼方程
马尔可夫决策过程和贝尔曼方程原创 2022-09-27 17:09:47 · 601 阅读 · 0 评论 -
强化学习简介
智能体感知:在某种程度上感知环境的状态行动:采取行动影响状态或者达到目标目标:获得最大的累积奖励环境智能体所处的环境,智能体的行为会改变环境交互过程智能体获得观测OtO_tOt获得奖励RtR_tRt做出行动AtA_tAt环境获得行动AtA_tAt给出观测Ot+1O_{t+1}Ot+1给出行动Rt+1R_{t+1}Rt+1t在环境这一步增加。原创 2022-09-04 21:34:02 · 202 阅读 · 0 评论