1 背景
巴菲特一直认为造车的企业是一个做 “苦生意” 的企业,可能苹果高层也意识到了这一点, 于是造车计划在去年被终止。
但2025年2月份,苹果公司署名发了一篇自动驾驶领域的论文《Robust Autonomy Emerges from Self-Play》,详细阐述了如何通过自我对弈(self-play)来训练自动驾驶系统,从而使其在没有人工数据的情况下表现出强大的鲁棒性和自主性。
2 论文工作
首先给各位读者朋友阐述自我博弈的概念,自我博弈有点类似中国武侠小说《神雕侠侣》中周伯通的技能----“双手左右互搏”。自我博弈主要应用在强化学习领域,特别是在AlphaGo等棋类游戏中。
2.1 自我博弈
自我对弈是一种强化学习(Reinforcement Learning)方法,智能体通过与自己(或克隆版本)反复对抗来提升策略。经典案例如:
- AlphaZero:通过自我博