强化学习:从网格世界到自动驾驶

161 篇文章 8 订阅 ¥19.90 ¥99.00
161 篇文章 4 订阅
本文探讨了强化学习(RL)的发展,强调了它在自动驾驶中的应用。从基本的Gridworld环境到复杂的自动驾驶场景,RL面临的挑战包括维度诅咒和训练需求。文章介绍了Q-learning和Policy Gradients等方法在端到端深度学习中的应用,以及它们如何逐步解决自动驾驶问题。然而,真实世界的驾驶环境带来了很多变数,需要大量训练和应对异常情况的能力。尽管取得了进步,但完全自动驾驶汽车的实现仍面临诸多挑战,尤其是处理不可预见的边缘情况。
摘要由CSDN通过智能技术生成

0. Agents, Environments, and Rewards

在过去几年中,人工智能研究人员发表的许多主要公告都是一门称为强化学习(RL)的学科。 最近的突破主要是由经典RL创意的微小转折所驱动,这得益于强大的计算硬件和利用所述硬件的软件的可用性。

为了了解现代深度RL模型对于计算的饥饿程度,下表是最近RL进展的非详尽集合以及完成每项任务所需的计算资源的估计。在这里插入图片描述
请注意,上表中的任务都经过模拟训练(即使是灵巧的机器人手),并且在大多数情况下,这是所需训练时间易于处理的唯一方法。对于像自动驾驶汽车这样的实际应用来说,这可能会变得特别棘手 - 稍后会更多关于该主题。

随着RL代理人在日益复杂的环境中解决任务,他们成为维度诅咒的牺牲品。这种复杂性的组合爆炸解释了像Dota Five这样的团队游戏机器人需要在数天内每天训练900年才能在非常有能力的硬件上击败顶级人类玩家。即使有像OpenAI用于Dota Five的那些可笑的计算资源,特别是深RL也有许多棘手的问题,这些问题最多只能使训练效率低下,而且最坏的情况是,许多问题基本上是难以处理的。

值得注意的是࿰

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Adam婷

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值