强化学习是什么

强化学习是一种机器学习方法,智能体通过与环境互动并根据反馈来学习最佳策略。应用广泛,如AlphaGO。核心是策略和值函数,包括MDP、Q-learning、策略梯度等算法。环境模拟库如Gym、MuJoCo用于实验。目标是最大化累积回报。
摘要由CSDN通过智能技术生成

应用

游戏,仿真,不需要指定已知数据,根据反馈进行学习,比如AlphaGO.落地实现不多。

环境

pip install gym
官网地址:
gym.oepenai.com
Box2D
MuJoCo
rlSchool

基本算法

马尔科夫决策过程MDP、策略迭代、价值迭代、广义策略迭代、

最优价值算法

Q-learning、DQN改进

反向强化学习

反向强化学习,最大熵反向强化学习,GAIL

其他强化学习方法

稀疏回报求解、Model-based

基于策略梯度的算法

Actor-Critic算法:与gan相似,有A3C,A2C,使策略单调提升优化:TRPO,GAE、PPO
off-policy策略梯度法:Retrace、ACER、DPG、DDPG。

应用

在这里插入图片描述
其中环境的参数可以是指定的,智能体的参数需要不断进行学习。
1、在一个离散时间序列,t=0,1,2,…中,智能体需要完成某项任务。
2、在每个时刻t,智能体执行动作at,并在环境中得到状态st和回报rt,环境会对智能

尽管先进的驾驶员辅助系统(ADAS)已在汽车行业广泛采用,以提高驾驶安全性和舒适性并减轻驾驶员的驾驶负担,但它们通常不会反映不同驾驶员的驾驶风格或个性化定制。 这对于舒适和愉快的驾驶体验以及提高市场接受度可能很重要。 但是,由于驾驶员数量众多且差异很大,要理解并进一步确定驾驶员的驾驶方式具有挑战性。 先前的研究主要在对驾驶员的驾驶行为进行建模时采用了物理方法,但是,即使不是不可能,在捕获人类驾驶员的驾驶特性方面也常常受到很大的限制。 本文提出了一种基于强化学习的方法,该方法通过驾驶员与周围环境的互动学习过程来制定驾驶风格。 根据强化学习理论,可以将驾驶行为视为最大化奖励功能。 代替校准未知奖励函数以满足驾驶员的期望响应,我们尝试利用最大似然强化学习(MLIRL)从人类驾驶数据中恢复它。 本文还提出了一种基于IRL的纵向驾驶辅助系统。 首先,从测试车辆收集大量的现实世界驾驶数据,并将数据分为两组分别用于训练和测试目的。 然后,将纵向加速度建模为人类驾驶活动中的玻耳兹曼分布。 奖励函数表示为一些核化基函数的线性组合。 基于训练集,使用MLIRL估算驾驶风格参数向量。 最后,开发了基于学习的纵向驾驶辅助算法,并在测试集上进行了评估。 结果表明,该方法能够较好地反映驾驶员的驾驶行为。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Nefelibat

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值