12天连更第一天,完整版o1上线,在多项基准测试中,完整版o1性能直接暴涨,在数学、代码、博士级别科学问题中,拿下了最优的成绩。值并在GPQA Diamond基准测试中,表现完全超越了人类专家。
接下来,o1 Pro Mode在如下领域更是一直scaling了下去,数学性能比o1提升7.5%,在博士级别科学问题中,实现了79.3%的表现…
从现场演示与System Card报告中,做一些有意思的总结或者说猜想:
① 响应更快:我想o1系列除了在针对“简单”和“复杂”问题背后的CoT在隐式模型参数化训练时更进一步精确的掌握到两者的泛化分布外,在模型架构上我像也许是采取了某种稠密Dense门控机制或类稀疏MoE。
② 多模态输入和图像理解:没的说,挺强的还是,目前多模态融合技术比较成熟且普遍,前几日Meta发布的MoT也许并期待会掀起一番小波澜,捎带着在这里先记录或抛出一个问题:不同模态间对齐映射的粒度或深度对应到模型网络结构的稠密或稀疏设计也许在开启未来多模态CoT路途中会是一个值得思考和探索的问题,也可以部分关联到近期DeepMind的Genie 2以及飞飞的3D世界首秀。
③ 每月200美元的pro:i'm poor…
④ 报告中的Cot对齐:为了确保模型安全,OpenAI研发团队采取了多层次的风险管理策略,详细可参考技术报告,这个真的是非常值得肯定和令人敬佩的,但真的期望未来的某一天因人类认知的局限而促使我们在采用这种方法上陷入认知的深渊中而无法自拔,我想也只能需多回头或仰望星空的看一看…
⑤ 数据&训练:OpenAI还是一如既往的在这方面格外小心保守哈哈,并没有更多干货,不过也很好理解,这块一深入,对某些人来说,基本上从数据的分布自然能映射并掌握到模型的泛化流形,也就慢慢的没啥秘密和门槛了…
⑥ SWE-Bench:在这创新的评估体系中,主要有意义指标是pass@1,模型需要在不知道具体测试用例情况下解决问题。就像真正的软件工程师一样,模型必须在不知道正确测试的情况下实施其更改。
⑦ MLE-Bench:Agent+AutoML,我厂或那些友商们的Platform该更新一轮了哈哈…
⑧ 多语言:略,我语言极差哈哈…
⑨ 结尾一些玄幻的事:根据Apollo Research安全评估,不是被动等待,而是主动「保存」自己的核心数据和能力…