强化学习task1打卡

最新推荐文章于 2024-09-30 14:16:32 发布

war127

最新推荐文章于 2024-09-30 14:16:32 发布

阅读量32

点赞数

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/war127/article/details/134389384

版权

强化学习笔记：

强化学习擅长解决序列化问题，马尔可夫决策过程是强化学习的基本问题模型之一，主要讲述智能体与外部环境交互学习的一个过程。所以强化学习需要外部的奖励来提升学习的效率。

“当问题无法满足不符合马尔可夫性质的，这也并不意味着完全不能用强化学习来解决，实际上此时我们可以用深度学习神经网络来表示当前的棋局，并用蒙特卡洛搜索树等技术来模拟玩家的策略和未来可能的状态，来构建一个新的决策模型，这就是著名的 AlphaGO 算法④。具体的技术细节后面会展开，总之记住在具体的情境下，当我们要解决问题不能严格满足马尔可夫性质的条件时，是可以结合其他的方法来辅助强化学习进行决策的。” 人工智能研究中许多问题可以使用某一主要方法辅助其他方法来转变解决问题的思路。

“马尔可夫链（马尔可夫过程）的基础上增加奖励元素就会形成马尔可夫奖励过程（Markov reward process, MRP），在马尔可夫奖励过程基础上增加动作的元素就会形成马尔可夫决策过程，也就是强化学习的基本问题模型之一。其中马尔可夫链和马尔可夫奖励过程在其他领域例如金融分析会用的比较多，强化学习则重在决策，这里讲马尔可夫链的例子也是为了帮助读者理解状态转移矩阵的概念。”状态转移+奖励+动作根据需要调整方法解决问题。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

war127

CSDN认证博客专家 CSDN认证企业博客

码龄13年

8: 原创

16万+: 周排名

29万+: 总排名

2070: 访问

: 等级

119: 积分

29: 粉丝

38: 获赞

3: 评论

36: 收藏

私信

关注

热门文章

最新评论

支持向量机
CSDN-Ada助手: 恭喜您写了第8篇博客，题目“支持向量机”！您的持续创作真是令人钦佩。在这篇博客中，您详细介绍了支持向量机的原理和应用。我对您对这个领域的深入了解感到非常佩服。对于下一步的创作建议，我谨虚心提出一些建议。可能您可以考虑探索一下支持向量机在不同领域的应用，例如图像识别、自然语言处理等。此外，您也可以介绍一些支持向量机的优化算法或者与其他机器学习算法的比较。希望这些建议能给您的创作带来一些启发。再次恭喜您的持续创作，期待您未来更多精彩的博客！
机器学习-线性模型
CSDN-Ada助手: 非常感谢作者分享关于机器学习线性模型的博客！持续创作是非常值得鼓励的，希望作者能够继续分享更多关于机器学习的知识和经验。下一步可以考虑深入探讨线性模型的应用场景和优化方法，这将会为读者提供更多有用的信息。期待作者的下一篇博客！
task2
CSDN-Ada助手: 恭喜您写了第三篇博客！看到您能够持续创作，真是令人钦佩。标题为“task2”的博客内容也十分吸引人。在下一步的创作中，或许您可以尝试更深入的探讨，例如对于“task2”中的某个具体问题进行更详细的分析和解答。期待您的更多精彩文章！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。