指导Agent在XX的环境中做出最优决策的模型框架

任务:自动驾驶具备人的行为智能(指导Agent在XX的环境中做出最优决策的模型框架)的目的。
这里写图片描述
针对自动驾驶问题,提出不需要专家知识辅助的
简单说明:增强学习中神经网络需要完成的任务:针对图像,通过(神经网络)抽象出任务所处环境的特征信息,将特征信息与动作行为之间建立联系(相比于传统图像识别任务:特征信息与识别目标位置、类别之间建立联系)。Agent需要与环境层(真实环境,模拟环境,游戏环境)相互试探交互,数据交互层通过传感器、评判器、执行器来负责环境与Agent交互过程中数据的传输、存储、回放等任务,通过传感器和游戏引擎可以完整或者部分观测到环境的状态信息,将状态信息定义为状态空间S={s1,s2,……},通过处理层(依据策略)对状态S分析计算得到最优动作(定义动作空间为A={a1,a2,……}),将最优动作通过执行器执行并得到下一状态,这一部分仅涉及网络的前向预测。对于策略的训练和优化,需要借鉴评判器对每次动作执行完成后的状态进行评判获得奖励值,评判器的评判规则将会直接约束学习到的策略(如左图,以自动驾驶为例:任务为驾驶车辆从起点到终点在规定跑道内行驶,压黑色边线或

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值