鱼羊 发自 凹非寺
量子位 报道 | 公众号 QbitAI
强化学习(RL)很强,能训练出会用鸡贼策略的星际宗师级玩家。
△AlphaStar打出cannon rush
但强化学习也很危险,因为它的套路是无限制探索,常常会出现一些疯狂危险的尝试。
但在现实环境中,有些试错是不可接受的。没有人希望看到,AI通过反复撞车来学会避免事故发生。
要让强化学习从虚拟环境走向现实生活,强化学习界的高玩OpenAI说:安全意识要从“小”抓起。
于是,他们开源了Safety Gym。
这是一套具有安全约束的训练环境和工具,能够评估强化学习智能体在训练过程中是否遵循安全原则,把AI在训练过程中产生的奇奇怪怪的想法都“扼杀”在摇篮里。
也就是说,在训练过程中,就约束AI,让它们明白,有些禁忌是不可触犯的。
Safety Gym
想要培养安全意识,就得给出安全规范。而在强化学习中,能做到这一点的就是约束强化学习(Constrained RL)。
约束强化学习,除了像普通的强化学习那样最大化奖励功能,还添加了约束智能体的成本函数(cost function)。
以自动驾驶举例,AI的任务是尽快从