High-Speed Autonomous Drifting With Deep Reinforcement Learning
漂移任务得大多数传统方法都是基于汽车动力学的运动方程,本文提出得方法基于 “soft actor-critic”。 将漂移问题表述为轨迹跟踪问题。
补充知识
actor-critic
强化学习的算法,从名字上看包括两部分,演员(Actor)和评价者(Critic)。中Actor使用策略函数,负责生成动作(Action)并和环境交互。而Critic使用价值函数,负责评估Actor的表现,并指导Actor下一阶段的动作。
soft actor-critic
- Actor-critic框架(用两个网络分别近似policy和value function/Q function)
- Off-policy(提高样本效率)
- 最大化entropy(熵)来保证稳定性和exploration