机器学习之强化学习概览（Machine Learning for Humans: Reinforcement Learning）

最新推荐文章于 2024-08-11 18:21:52 发布

蓝色枫魂

最新推荐文章于 2024-08-11 18:21:52 发布

阅读量4.5k

点赞数 1

分类专栏： Reinforcement Learning

Reinforcement Learning 专栏收录该内容

10 篇文章 15 订阅

订阅专栏

声明：本文翻译自Vishal Maini在Medium平台上发布的《Machine Learning for Humans》的教程的《Part 5: Reinforcement Learning》的英文原文（原文链接）。该翻译都是本人（tomqianmaple@outlook.com）本着分享知识的目的自愿进行的，欢迎大家交流！

纯属自愿翻译，只为学习与分享知识。所以如果本系列教程对你有帮助，麻烦不吝在github的项目上点个star吧！非常感谢！

关键词：探索和利用、马尔科夫决策过程、Q-Learning、策略学习、深度增强学习。

[Update 9/2/17] 现在本系列教程已经出了电子书了，可以在这里下载！

有问题请咨询ml4humans@gmail.com。

“我刚因为完成上个部分的任务而吃了些巧克力。”

在监督学习中，训练数据伴随着来自像神一般的“监督者”给定的相应答案，如果生活也能像这样一切有确定的答案就好了！

在**强化学习（Reinforcement Learning）**中，却没有答案这一说，但是你的强化学习agent仍然不得不决定如何行动以完成指定任务。在没有训练数据存在的情况下，agent从经验当中学习。它会在尝试完成任务的过程中通过是错收集训练样例（“这个行为是好的，那个行为很糟糕”），而其目标则始终是最大化长期回报。

在《Machine Learning for Humans》系列的这最后一部分，我们将探索：

探索/利用之间的权衡
马尔科夫决策过程（MDPs），强化学习任务的经典设定
Q-Learning，策略学习，深度学习
还有最后的价值学习问题

最后，我们也如往常一样提供一些好的继续可供深入探索的相关学习资源。

我们首先来把一个机器人老鼠放在迷宫里

最简单的理解强化学习的环境，就是一个有清晰目标和记分系统的游戏。

假设我们在玩一个游戏，我们的老鼠

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。