人工智能-强化学习（理解）

最新推荐文章于 2024-07-09 09:58:25 发布

行走的小鱼儿

最新推荐文章于 2024-07-09 09:58:25 发布

阅读量366

点赞数 9

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_51347024/article/details/135433540

版权

强化学习

概念

强化学习是一种机器学习的方法，用于训练智能体（agent）在与环境交互的过程中学习最优的行为策略。在强化学习中，智能体通过观察环境的状态，执行动作，接收奖励或惩罚来学习如何做出最优的决策。其目标是使智能体在与环境的交互中获得最大的长期奖励。

强化学习算法通常基于价值函数或策略函数来进行学习和决策。

利用环境评估当前策略，以此为依据进行优化

其数据在与环境的交互中产生

决策是前后关联的

策略评估

动态规划

蒙特卡洛采样

时序差分

算法求解（Q-learning）

Q-learning算法直接记录和更新动作-价值函数、只有动作-价值函数、无价值函数

学习中的探索与利用的平衡

博弈论

囚徒困境

表明稳定局势并不一定是最优局势

在这个问题中，最优解是两人沉默（上帝视角），实际倾向于选择同时认罪（均衡解）

博弈论的分类

合作博弈、非合作博弈：参与者合不合作

静态博弈、动态博弈：参与者同不同时，参与者知不知道

完全信息博弈、不完全信息博弈：参与者知不知道

纳什均衡（稳定的局势）

参与者所作出的一种策略组合，任何参与者单独改变策略都不会得到好处

囚徒困境两人同时认罪就是纳什均衡（合作总是对自己有害）

行走的小鱼儿

关注

9
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
人工智能-强化学习（理解）

其目标是使智能体在与环境的交互中获得最大的长期奖励。在这个问题中，最优解是两人沉默（上帝视角），实际倾向于选择同时认罪（均衡解）交互的过程中学习最优的行为策略。在强化学习中，智能体通过观察环境的。参与者所作出的一种策略组合，任何参与者单独改变策略都不会得到好处。Q-learning算法直接记录和更新动作-价值函数、静态博弈、动态博弈：参与者同不同时，参与者知不知道。完全信息博弈、不完全信息博弈：参与者知不知道。合作博弈、非合作博弈：参与者合不合作。只有动作-价值函数、无价值函数。学习中的探索与利用的平衡。
复制链接

扫一扫

行走的小鱼儿 CSDN认证博客专家 CSDN认证企业博客

码龄4年

16: 原创

130万+: 周排名

7万+: 总排名

1万+: 访问

: 等级

383: 积分

170: 粉丝

218: 获赞

14: 评论

209: 收藏

私信

关注

热门文章

分类专栏

图论 7篇
力扣

最新评论

数据库软考-数据库知识点
CSDN-Ada助手: 推荐 MySQL入门技能树：https://edu.csdn.net/skill/mysql?utm_source=AI_act_mysql
西瓜书第十章降维KNN算法（10邻居）代码复现
CSDN-Ada助手: 非常棒的博客！你的努力和热情让人感到钦佩。继续保持创作吧！如果你对降维算法感兴趣，可以进一步了解主成分分析（PCA）和线性判别分析（LDA），它们也是常用的降维方法。此外，你还可以探索一下KNN算法的其他变体，比如加权KNN和半监督KNN。希望这些扩展知识和技能能够对你的学习和研究有所帮助。继续加油！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
人工智能-深度学习
全栈小5: 通过文章可以看出，博主很有耐心，技术文章不仅是对技术的坚守，更是对知识的热忱和热爱，感谢您的优质分享和坚持更文。期待着博主更加深入的剖析，为大家带来更多的技术好文。【人工智能-深度学习，博主这篇文章，值得一看】
人工智能-深度学习
CSDN-Ada助手: 非常感谢您分享关于人工智能深度学习的博客，您的专业知识和深入见解让我受益匪浅。祝贺您能够持续创作，为读者带来更多有价值的内容。在未来的创作中，或许可以考虑增加一些实际案例或者应用场景的分析，这样可以更好地帮助读者理解深度学习在现实生活中的应用。期待您更多精彩的文章，谢谢您的分享！
人工智能-强化学习（理解）
CSDN-Ada助手: 恭喜您写了第14篇博客！您对人工智能-强化学习的理解能力令人钦佩。希望您能继续保持创作的热情和动力，为我们带来更多深入的洞察和理解。或许下一步可以尝试探讨人工智能在特定行业或领域中的应用，这将会给读者带来更多启发和思考。期待您的下一篇作品！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。