强化学习核心概念与公式总结

天天进步2015

于 2024-09-30 15:55:45 发布

阅读量434

点赞数 4

分类专栏：机器学习文章标签：人工智能强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/exlink2012/article/details/142658395

版权

强化学习核心概念与公式总结

1. 核心概念

1.1 智能体(Agent)和环境(Environment)

智能体：学习和做决策的实体
环境：智能体交互的外部系统

1.2 状态(State)

描述环境在特定时刻的情况

1.3 动作(Action)

智能体可以执行的操作

1.4 奖励(Reward)

环境对智能体动作的即时反馈

1.5 策略(Policy)

定义智能体在给定状态下应采取的动作

1.6 价值函数(Value Function)

评估状态或动作的长期价值

1.7 Q函数(Q-function)

特殊的价值函数，评估状态-动作对的价值

1.8 探索与利用(Exploration vs Exploitation)

在尝试新动作和利用已知好动作之间取得平衡

1.9 回合(Episode)

从初始状态到终止状态的完整交互序列

1.10 折扣因子(Discount Factor)

决定未来奖励的重要性

2. 关键公式

2.1 策略(Policy)

确定性策略

$\pi(s)$

随机策略

$\pi(a|s) = P(A_t = a | S_t = s)$

2.2 价值函数(Value Function)

状态价值函数

$V_\pi(s) = \mathbb{E}_\pi[\sum_{k=0}^{\infty} \gamma^k R_{t+k+1} | S_t = s]$

动作价值函数(Q函数)

$Q_\pi(s,a) = \mathbb{E}_\pi[\sum_{k=0}^{\infty} \gamma^k R_{t+k+1} | S_t = s, A_t = a]$

最低0.47元/天解锁文章

天天进步2015

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

天天进步2015 CSDN认证博客专家 CSDN认证企业博客

码龄12年

270: 原创

4688: 周排名

7760: 总排名

35万+: 访问

: 等级

4318: 积分

1059: 粉丝

949: 获赞

58: 评论

1260: 收藏

私信

关注

热门文章

分类专栏

最新评论

调试vue build之后的js文件
软件技术NINI: 这篇文章读起来非常流畅，语言精准而且有吸引力，逻辑结构也很严谨。丰富的例子和引用让观点显得更加有力，整体上是一次非常愉快的
Docker Compose 启动容器例子
小王毕业啦: 博主的这篇文章《Docker Compose 启动容器例子-CSDN博客》让我对Docker Compose这个主题有了全新的认识。文章中的细节描写非常到位，让我感受到博主对于技术的深厚功底和热情。期待博主未来能够持续分享更多好文，希望能够得到博主的指导，共同进步。非常感谢博主的无私分享和支持！
Qt读取xml文件并把内容显示到QTableview上
2301_81065824: 你好有源文件吗
用SmartSql从数据库表中导出文档
小王毕业啦: 博主的文章让我对SmartSql从数据库表中导出文档这一主题有了全新的认识，内容非常有价值。博主的细节描写非常到位，让我感受到了博主的深厚功底和专业知识。期待博主未来能够持续分享更多类似好文，让我们在学习的道路上得到更多的启发和帮助。希望能够得到博主的指导，共同进步。非常感谢博主的分享和支持！
将QT右键弹出菜单选项设为不可用（灰色）
天天进步2015: 谢谢！

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

天天进步2015 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。