强化学习：从网格世界到自动驾驶

最新推荐文章于 2024-08-11 18:21:52 发布

Adam婷

最新推荐文章于 2024-08-11 18:21:52 发布

阅读量1.5k

点赞数

分类专栏：算法 AI程序员机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41697507/article/details/87913237

版权

AI程序员同时被 3 个专栏收录

166 篇文章 9 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

161 篇文章 8 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

161 篇文章 4 订阅

订阅专栏

本文探讨了强化学习（RL）的发展，强调了它在自动驾驶中的应用。从基本的Gridworld环境到复杂的自动驾驶场景，RL面临的挑战包括维度诅咒和训练需求。文章介绍了Q-learning和Policy Gradients等方法在端到端深度学习中的应用，以及它们如何逐步解决自动驾驶问题。然而，真实世界的驾驶环境带来了很多变数，需要大量训练和应对异常情况的能力。尽管取得了进步，但完全自动驾驶汽车的实现仍面临诸多挑战，尤其是处理不可预见的边缘情况。

摘要由CSDN通过智能技术生成

0. Agents, Environments, and Rewards

在过去几年中，人工智能研究人员发表的许多主要公告都是一门称为强化学习（RL）的学科。最近的突破主要是由经典RL创意的微小转折所驱动，这得益于强大的计算硬件和利用所述硬件的软件的可用性。

为了了解现代深度RL模型对于计算的饥饿程度，下表是最近RL进展的非详尽集合以及完成每项任务所需的计算资源的估计。在这里插入图片描述
请注意，上表中的任务都经过模拟训练（即使是灵巧的机器人手），并且在大多数情况下，这是所需训练时间易于处理的唯一方法。对于像自动驾驶汽车这样的实际应用来说，这可能会变得特别棘手 - 稍后会更多关于该主题。

随着RL代理人在日益复杂的环境中解决任务，他们成为维度诅咒的牺牲品。这种复杂性的组合爆炸解释了像Dota Five这样的团队游戏机器人需要在数天内每天训练900年才能在非常有能力的硬件上击败顶级人类玩家。即使有像OpenAI用于Dota Five的那些可笑的计算资源，特别是深RL也有许多棘手的问题，这些问题最多只能使训练效率低下，而且最坏的情况是，许多问题基本上是难以处理的。

值得注意的是࿰

了解本专栏

超级会员免费看

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Adam婷 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。