别再把o1满血版当聊天模型了!SpaceX前工程师公开全新使用秘籍:从讨厌它到每天依赖它...

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

苹果&SpaceX前工程师分享o1使用心得,奥特曼、Brockman都转发了。

划重点:

o1已经不是聊天模型了,需要全新的使用方法。

d57a90b15205c16e64c5f71bba797165.png

2298d8e4c0cdc2e8ecb2666c0dcac645.png

奥特曼还跑去挖坟作者Ben Hylak数天前的“自我打脸”评论,称“观察o1的口碑变化、以及人们学习如何使用它很有趣”。

b967ce677e5a9563aae538be3e89c82d.png

Ben Hylak曾任SpaceX软件工程师、苹果VisionOS人机交互设计师,目前在创业为AI产品提供分析服务。

具体来说,Ben在o1 pro推出满血$200/月版本的第一天就交钱了,整整测试了一天后得出结论:它真的很糟糕!

  • 每次提问都要等待5分钟

  • 会输出自相矛盾的建议

  • 没有要求但总是会回复架构图+优势/劣势列表

e93fbb3486fefe9585f759ff14e74624.png

Ben把糟糕的体验发在网上后,很多人表示同感。但有趣的是,也有人强烈反对。

他开始与持不同观点的讨论,然后意识到原来是自己的方法完全错了。

我还在把o1当聊天模型来用,但o1已经不是聊天模型了。

现在,Ben已经从讨厌o1,转变成了每天都在用它解决最重要的问题。

像对待新员工一样对待o1

如果说o1不是聊天模型了,那它现在是什么?

Ben认为它就像一个“报告生成器”。如果你给它足够的上下文,并告诉它你想要输出什么,它通常会一次性找到解决方案。

OpenAI官方其实给了一个简单的o1使用建议,但并不完善。

f69a8758e42fff1e75c35597937124b9.png

Ben的建议包括:

提供海量背景信息

不管你现在是怎么理解“海量”的,再乘以10倍。

当使用GPT-4o或Claude 3.5等聊天模型时,通常会从一个简单的问题和一些背景信息开始。如果模型需要更多背景信息,它通常会要求你继续提供。

这就是聊天模型的本质,从一来一回的交互中不断完善输出。

但o1只会从表面上回答你提出的问题,不会试图从你那里获取背景信息。所以需要反过来将尽可能多的上下文主动发给它。

即使只是问一个简单的代码工程问题,应该提供:

  • 解释所有你尝试过但不起作用的方案

  • 一份完整的数据库schemas

  • 解释一下你的公司是做什么的,规模多大,定义内部术语

总而言之,就像对待新员工一样对待o1。

f57b9f2b34527f99a0f3f72f553725cd.png

描述你想要什么,而不是指导它如何做

对于大多数聊天模型,我们都会告诉模型希望他如何回复模式,比如“扮演一位软件工程专家,请仔细思考”。

但在o1上有效的方法正相反,告诉它你需要什么,而不是指导它如何去做。

Ben把o1的提示词模板分成4部分:

  • 目标放在最前面

  • 详细指定输出格式

  • 可以附加需要检查的注意事项

  • 海量相关的背景信息

b299739a9cd284cf11a8c96558c31e17.png

最后,o1的输出有一种学术/商业报告的风格。Ben认为太多的推理token让它很难摆脱这种风格

他曾试图让o1来完成这篇文章,但经过多次尝试,只能得到非常平淡的学生作业。

5b28eef2176057cb16004e60b32be721.png

One More Thing

在奥特曼的转发推文中,有人套出了最新消息:

o3暂时还不会向用户开放,o3-mini会先推出,而且时间不远了。

b113da510fe99bfdb2e313eb53d86451.png

o3-mini会先提供给Plus订阅用户使用,API的定价OpenAI内部还没确定,但不会很贵。

37408df9614ca2cae3223ddc139b8b63.png

参考链接:
[1]https://www.latent.space/p/o1-skill-issue
[2]https://x.com/sama/status/1877814065088663763
[3]https://x.com/gdb/status/1878489681702310392

量子位年度AI主题策划正在征集中!

欢迎投稿专题 一千零一个AI应365行AI落地方案

或与我们分享你在寻找的AI产品,或发现的AI新动向

4a0496fc48f5ec836ef15b9cfb3cf6a0.png

点这里👇关注我,记得标星哦~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值