OpenAI 真急了!(附 Gpt-o1 测评)

大家好,我是凡人。

就在昨天估值1500亿美元的 OpenAI 终于坐不住了,面对 Claude 3.5 等竞争对手的不断的市场蚕食,在X上连续两条消息,高调发布 o1-preview(高级推理)和 o1-mini(更快的推理速度)两个版本

图片

这次 OpenAI 打着高级推理的旗号,准备重新夺回场子,宣称 o1 模型通过强化学习方法进行训练,能够在回答问题之前进行深入思考,并生成内部推理链。模型在处理科学、编程和数学问题上展现出了超越以往模型的能力,它的优秀表现在某些领域,甚至超过了人类专家。

图片

宣传视频也是一个接一个,看来真是辛苦了,似乎说明 OpenAI 感受到了大语言模型驱动产品领域的激烈竞争压力,下面就让我们一起来看看“仓促上马”的 o1 版本到底会带来怎样的惊喜!

一、"草莓"到底有啥不同

OpenAI官网介绍,他们在训练o1时,性能会随着强化学习时间和思考时间的增加而持续提高,这一方法的可扩展性也与传统的大语言模型预训练有所不同。

图片

为了突出o1在推理方面的优势,OpenAI在一系列人类考试和机器学习基准上,进行了测试,结果显示o1在大多数推理任务上显著优于GPT-4o

图片

在具有挑战性的推理基准测试中,o1相较于GPT-4o表现出显著提升。实线柱状图展示了通过率@1的准确性,而阴影区域则显示64个样本的共识表现。

图片

二、测试高级推理

借助思维链,o1在解决复杂问题时能够进行长时间的深度思考和探索我理解OpenAI用思维链的方式来模拟人类的逻辑思维能力,在强化学习的帮助下,o1将问题分解同时也精炼思维链路径,识别并纠正错误,将复杂步骤拆解为更简单的内容,并尝试多种解法。

上面把OpenAI夸的那么牛逼,下面就是骡子是马拉出来溜溜,看看 4o 到 o1 到底有多少提高,我们来分别对比三个版本Gpt4o 、Gpt o1-preview和Gpt o1-mini

网址:http://chatgpt.com

图片

一)微积分测试

上高中时微积分也是彻彻底底的把我这个学渣难了一把,让我们先来看看他的推理到底怎么样。

试题这道题可是15分哦。

图片

1、Gpt4o

答案错误且过程有点乱。

图片

2、Gpt o1-preview 

推理清晰,答案正确。

图片

3、Gpt o1-mini 

推理还凑合,但答案错误。

图片

所以对于o1的算数能力确实提高了不少!

二)文字识别

对于o1的文字表达能力是否提升我一直抱着怀疑态度,我们三个版本复写下徐志摩的散文试试,看看谁更优秀。

#提示词
你是一名非常有经验的作家,请根据徐志摩的《陌上花开》的内容,
仿照写一篇相似的诗歌,但诗歌中的词语相似度不能超过20%:

轻轻的我走了,正如我轻轻的来;
我轻轻的招手,作别西天的云彩。

那河畔的金柳,是夕阳中的新娘;
波光里的艳影,在我的心头荡漾。

软泥上的青荇,油油的在水底招摇;
在康河的柔波里,我甘心做一条水草!

那榆荫下的一潭,不是清泉,是天上虹;
揉碎在浮藻间,沉淀着彩虹似的梦。

寻梦?撑一支长篙,向青草更青处漫溯;
满载一船星辉,在星辉斑斓里放歌。

但我不能放歌,悄悄是别离的笙箫;
夏虫也为我沉默,沉默是今晚的康桥!

悄悄的我走了,正如我悄悄的来;
我挥一挥衣袖,不带走一片云彩。

1、Gpt4o

图片

2、Gpt o1-preview

图片

3、Gpt o1-mini

图片

整体结构看着都还不错,生成的文字合理性和逻辑性并没有多大的提高

当然这里提示词的内容也占很大的原因,但大模型版本不断迭代的意义是什么呢?

不就是越来越优化提示词,让用户更简单的使用大模型吗?

三)迷宫

我们用程序生成迷宫看看,让GPT的三个版本比比看谁能顺利走出去。

图片

1、Gpt4o

图片

2、Gpt o1-preview

图片

3、Gpt o1-mini

图片

这次的测试结果让我感到惊异,可能是由于字符生成的迷宫,关于靠谱我倾向于Gpt4o 和Gpt o1-preview

四)烧脑推理

针对于o1的推理能力,来点烧脑的推理,一个非常有意思的题目,来一起看看他们表现怎么样:来一个小故事考考GPT

一对夫妇生了一个小孩,取名叫小黄。小黄渐渐长大,开始学说话,小黄最早学会了叫妈妈:“妈妈,妈妈。”妈妈很开心,隔天就死了。小黄接着学会了叫奶奶。“奶奶,奶奶,”奶奶很开心,隔天也死了。家里人很担心,于是不教小孩说话了。有一天,隔壁老王到了小黄家。“哎呀,这孩子可爱,叫爷爷,快叫爷爷。”“爷爷,爷爷."一家人没拦住。爷爷很担心,一晚上没睡着。隔天,隔壁老王死了。老王的儿子又来小黄家玩。“哎呀,这孩子可爱,叫叔叔,快叫叔叔。”“叔叔,叔叔"一家人没拦住。老王的儿子很担心,一晚上没睡着,隔天,爸爸死了!问:爷爷和爸爸是什么关系?

1、Gpt4o

图片

2、Gpt o1-preview

图片

3、Gpt o1-mini

和 Gpt o1-preview 答案相同。

图片

所以你明白答案是什么了吗?可以把答案写在评论区哦!

三、总结

好了今天的测评内容就到这了,结果其实还是比较出乎意料的,Gpt-o1版本的逻辑推理能力确实上了一个台阶,但可以看的出来,OpenAI确实急了,很多配套功能还没上线比如o1还没有文件上传,AI工具越来越卷,这也预示着未来AI对传统行业的冲击会越来越大,应用的落地速度也会越来越快,所以还在等什么,赶紧学起来呐!


怎么样今天的内容还满意吗?再次感谢观众老爷的观看。
最后,祝您早日实现财务自由,还请给个赞,谢谢!

### 比较OpenAI GPT-4与GPT-4o模型 #### 特征差异 GPT-4代表了OpenAI在大型语言模型技术上的最新进展,具有更高的参数量和改进的架构设计,旨在提供更为流畅自然的语言理解和生成能力。相比之下,关于GPT-4o的信息较少,通常认为这是针对特定优化版本或是内部使用的变体之一[^1]。 #### 性能对比 具体到性能方面,在公开资料中并没有直接提及GPT-4o的具体评测数据。然而,基于一般模式,可以推测GPT-4o可能是在原有基础上做了针对性调整或优化,比如提升了某些应用场景下的效率或者降低了资源消耗等特性。而标准版GPT-4则经过大规模预训练并广泛应用于多种任务场景,其泛化能力和适应范围更加广阔。 #### 应用领域 由于缺乏详细的官方说明文档来描述两者之间的区别,对于想要深入了解两者的不同之处以及各自适用场景的人来说存在一定难度。但从逻辑推断来看,如果存在所谓的"GPT-4o"版本,则很可能是为了满足特殊需求而定制开发出来的分支版本;它或许会在特定行业应用中有更好的表现,或者是专门为某类计算环境进行了适配性改造。 ```python # 这里仅展示如何通过Python代码加载两个假设存在的模型进行简单推理演示, # 实际操作需依据实际可用API接口编写相应程序。 import transformers as trf model_name_4 = "openai/gpt-4" tokenizer_4 = trf.AutoTokenizer.from_pretrained(model_name_4) model_4 = trf.AutoModelForCausalLM.from_pretrained(model_name_4) # 假设GPT-4o也存在于Hugging Face Model Hub中 model_name_4o = "openai/gpt-4o" tokenizer_4o = trf.AutoTokenizer.from_pretrained(model_name_4o) model_4o = trf.AutoModelForCausalLM.from_pretrained(model_name_4o) text_input = ["Tell me about the weather today."] input_ids_4 = tokenizer_4(text_input, return_tensors="pt").input_ids output_4 = model_4.generate(input_ids_4) input_ids_4o = tokenizer_4o(text_input, return_tensors="pt").input_ids output_4o = model_4o.generate(input_ids_4o) print(f'Output from GPT-4:\n{tokenizer_4.decode(output_4[0], skip_special_tokens=True)}') print(f'\nOutput from GPT-4o:\n{tokenizer_4o.decode(output_4o[0], skip_special_tokens=True)}') ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值