指导Agent在XX的环境中做出最优决策的模型框架

最新推荐文章于 2024-08-13 01:07:33 发布

置顶

dlphay

最新推荐文章于 2024-08-13 01:07:33 发布

阅读量3.2k

点赞数 2

分类专栏： RL algorithm 文章标签：增强学习 Agent 自动驾驶最优决策框架搭建

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dlphay/article/details/78200065

版权

任务：自动驾驶具备人的行为智能（指导Agent在XX的环境中做出最优决策的模型框架）的目的。
这里写图片描述
针对自动驾驶问题，提出不需要专家知识辅助的
简单说明：增强学习中神经网络需要完成的任务：针对图像，通过（神经网络）抽象出任务所处环境的特征信息，将特征信息与动作行为之间建立联系（相比于传统图像识别任务：特征信息与识别目标位置、类别之间建立联系）。Agent需要与环境层（真实环境，模拟环境，游戏环境）相互试探交互，数据交互层通过传感器、评判器、执行器来负责环境与Agent交互过程中数据的传输、存储、回放等任务，通过传感器和游戏引擎可以完整或者部分观测到环境的状态信息，将状态信息定义为状态空间S={s1，s2，……}，通过处理层（依据策略）对状态S分析计算得到最优动作（定义动作空间为A={a1，a2，……}），将最优动作通过执行器执行并得到下一状态，这一部分仅涉及网络的前向预测。对于策略的训练和优化，需要借鉴评判器对每次动作执行完成后的状态进行评判获得奖励值，评判器的评判规则将会直接约束学习到的策略（如左图，以自动驾驶为例：任务为驾驶车辆从起点到终点在规定跑道内行驶，压黑色边线或

最低0.47元/天解锁文章

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。