收敛困难,调参困难。
DRL算法通常需要海量的Agent和环境的交互数据,而这些数据只有在模拟场景下(游戏)才很充足并且廉价,想象一下自动驾驶和机器人领域,如果拿真的汽车和机器人去做Action,万一是负奖赏的Action,那损失也太大点了。
奖赏函数需要定义的很准确,这其实很难。
最重要的是:很多应用,比较成熟的方法效果都不比DRL差,所以公司不愿意去冒这个风险吧。
深度强化学习几大尚未解决问题
最新推荐文章于 2024-01-05 00:55:48 发布
收敛困难,调参困难。
DRL算法通常需要海量的Agent和环境的交互数据,而这些数据只有在模拟场景下(游戏)才很充足并且廉价,想象一下自动驾驶和机器人领域,如果拿真的汽车和机器人去做Action,万一是负奖赏的Action,那损失也太大点了。
奖赏函数需要定义的很准确,这其实很难。
最重要的是:很多应用,比较成熟的方法效果都不比DRL差,所以公司不愿意去冒这个风险吧。