强化学习导论(1)帝王引擎的轰鸣声

最新推荐文章于 2022-08-24 17:23:16 发布

软硬兼吃曹达华

最新推荐文章于 2022-08-24 17:23:16 发布

阅读量2.2k

点赞数 2

分类专栏：强化学习导论文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ILYPL/article/details/78923820

版权

本文是《强化学习：入门》的翻译，介绍了强化学习的基本概念，包括代理器与环境的交互、策略、奖励信号、值函数和环境模型。强调了强化学习中的探索与利用的权衡，以及在井字游戏中的应用示例，揭示了强化学习在多层学习系统中的潜力。

摘要由CSDN通过智能技术生成

Reinforcement Learning:An Introduction翻译，能力有限，有错和不清楚的地方请指出来。

因为孤高才去挑战

序

人类通过与环境互动学习的想法可能是我们第一次思考学习的本质。婴儿玩耍时，挥舞着手臂，四处看，他没有老师教，但他每个行为都能与周遭的环境联系上，环境与行为的连接产生大量关于因果关系的信息，关于行动的后果，为了实现目标，该做些什么。在我们的生活中，这种相互作用无疑是存在的。关于我们的环境和我们自己的知识的主要来源。从交互中学习是一个基础，几乎所有学习和智力理论皆如此。我们在学怎么开车或者在撩妹，我们都意识到周围环境对我们行为作出的反映。

在这本书中，我们探索了一种从交互中学习的计算方法。而不是直接关于人或动物如何学习的理论，我们探索理论化的学习情况并评估各种学习方法的有效性。也就是说，我们采用人工智能的观点。我们探索设计有效解决学习问题的机器。

1-1 强化学习

强化学习是机器去学习怎么做，去寻找作出每个行为获得的最大奖励，机器没有被告知应该怎么做，而是通过机器自身去发现什么样的行为才能获得最大的奖励，最有趣和最具挑战性的案例中，行动可能不仅影响眼前的奖励，而且影响下一个情况，并由此影响所有延迟的奖励。强化学习最重要的特点便是错误搜索和延迟奖励。

强化学习，就像许多主题以“ing”为状态的主题。例如机器人去爬山，爬山的过程既是遇到问题过程又是解决问题的过程。

强化学习与监督学习和无监督学习都有区别，首先&#

最低0.47元/天解锁文章

软硬兼吃曹达华

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。