GPT-4o和谷歌Gemini不断宣传现阶段AI能力大幅度提高,那么这两家,谁的大模型能力更强呢?这篇文章里,作者就展开了多维度的测试和体验,想了解的同学,可以来看一下。
在中美AI大模型的竞争上,正衍生出两种不同的路径。
继北京时间5月14日凌晨OpenAI春季发布会上,OpenAI推出兼具听、看、说能力的GPT-4o后。北京时间5月15日凌晨谷歌I/O开发者大会上,谷歌CEO桑达尔·皮查伊发布数十款Google和AI 结合产品,堪称“全家桶”级别,全面围剿Open AI。
其中包括支持200万token长文本的Gemini 1.5 Pro和 Gemini 1.5 Flash,对标Sora的Veo,开源模型Gemma 2,支持生成式搜索的AI Overviews、第六代TPU等。
整场开发者大会最大的看点为,谷歌推出的AI语音助手——Astra,它能够通过摄像头识别物体、代码和各种东西。现场演示视频中,用户要求Astra在看到发出声音的东西时告诉她,助手回答说,它可以看到一个发出声音的扬声器。对于一闪而过的苹果,Astra居然也能够准确回答出在眼镜旁边。
除Astra外,谷歌还推出基于Gemini的多款通用AI Agent子系列产品。如音频的NotebookLM、音乐的Music AI Sandbox、视频的Veo、图像的Imagen 3,直接对标OpenAI发布的GPT-4o、Dall-E和Sora。
和谷歌、OpenAI围绕技术之争不同的是,国内大模型或将迎来价格战时代。在5月15日字节举办2024春季火山引擎Force原动力大会上,字节推出3款AI产品,包括AI生图产品 PicPic、AI 教育产品河马爱学、AI 剧情互动产品猫箱。
除这三款产品外,字节面向TOC端的产品还包括定位AI教育的Gauth,定位AI对话的豆包和CiCi;定位AI工具的小悟空ChitChop;定位Al Bot创建平台的Coze和扣子;定位AI互动剧情的BagelBel等。
但字节率先启动行业价格战,火山引擎总裁谭待表示,豆包大模型将开启付费商业化,且定价远低于行业价格。以豆包通用模pro-32k版为例,模型推理输入价格仅为0.0008元/千Tokens。市面上同规格模型的定价一般为0.12元/千Tokens,是豆包模型价格的150倍。
字节本轮降价后,后续国内其他大模型厂商或将跟随。但降价能否帮助国内大模型厂商带来更多新增用户和付费用户,仍值得商榷。
B端产品经理面临的第一大挑战,是如何正确的分析诊断业务问题。 这也是最难的部分,产品设计知识对这部分工作基本没有帮助,如果想做好业务分析诊断,必须具备扎实 …
GPT-4o和谷歌Gemini不断宣传现阶段AI能力大幅度提高,两家谁的大模型能力更强呢?基于此,我们也对GPT-4o和Gemini展开了多维度的测试。
01 文本输出:Gemini和GPT-4o愈发接近,部分能力已赶超
因GPT-4o和Gemini均属于世界TOP级的大模型,在测试两家大模型的文本输出能力上,我们直接将难度升级。
为什么很多国家仍以油车为主?你觉得影响新能源汽车海外渗透率提高的因素有哪些?我们将这一问题同时给到GPT-4o和Gemini,二者均指出充电基础设施建设、购置成本、技术进步、政策支持、消费者文化习惯是很多国家仍以燃油车为主的原因。
但相较于GPT-4o,Gemini不仅识别到我们提问的是两个问题,且均给出答案,也回答出GPT-4o没有指出的车企方面、宣传教育方面的问题。也就是说,Gemini的回答可能更为完整。
图源:基于Gemini和GPT-4o生成内容整理 DoNews制图
我们继续追问要求两个大模型同时给我们撰写一份10000字全球新能源汽车报告,并要求报告中需要包括行业价格战、电池技术、未来发展方向、产业趋势。
但此时两个大模型的表现已经出现明显差异,GPT-4o给我们生成七大章节的框架,每个框架下也要对应的小框架。但就是不输出我们要求的内容,这或许和当前GPT-4o在长文本能力上的欠佳有关。
图源:GPT-4o官网
Gemini虽给我们具体的文本内容,但全文1679字和我们要求的万字报告差距较大。内容被大幅度压缩后,整个内容质量也相对欠佳。
如在提到新能源汽车产业趋势发展上,Gemini给出的内容为产业链整合、跨界合作、国际化竞争,每条内容仅有一句话进行概括。换言之,在真正涉及行业专业性问题上,Gemini和GPT-4o均存在不同程度的短板。
图源:Gemini官网
当我们将难度继续提高后,询问为什么今年以来全球大宗商品价格持续上涨?这种涨幅带来的影响有哪些?未来价格是否会回落?在首问中GPT-4o和Gemini给出的答案有所相同,均指出和供应链、地缘冲突、全球经济等因素有关。且在未来价格走势预测中,两者给到的答案也基本相同。
但在涨幅所带来的影响上,Gemini给出的答案可能更为完整。尤其是在金融、企业利润、社会等方面的影响,GPT-4o并未指出。
图源:基于Gemini和GPT-4o生成内容整理 DoNews制图
在文本内容快速分析上,我们让两款大模型同时给我们分析安克创新2024年Q1财报中存在的风险点,GPT-4o生成的风险点包括现金流减少、高额的销售费用和管理费用、财务费用大幅度波动、公允价值带来损失这四点。
图源:GPT-4o官网
但Gemini给出的内容却包括营收增速放缓、经营活动大幅度下降、销售费用和管理费用大幅度增加、存货跌价损失增加、汇兑大幅度增加、对政府补助依赖这六点。这也不能看出,Gemini的回答更为完整。
图源:Gemini官网
而当我们要求两款大模型同时以如何帮助失恋的人走出阴影,写一篇2000字的文章。要求文章有观点,并且文章内需要配上对应的图片和音频,Gemini的表现可以说完全吊打GPT-4o。
在文章开头,Gemini直接放入一曲舒缓的音乐,且这个音乐也支持播放。每个细分章节下,Gemini直接从网站上检索到和内容相关的图片,实现OpenAI提到的文本、音频、图像的任意组合。
图源:Gemini官网
对比之下,GPT-4o给到的内容就有些逊色。除文章开始处能看到图片外,其余正文处均未看到任何和内容相关的图片,且全文中也看不到音频。
图源:GPT-4o官网
整体测试下来后我们发现,谷歌在生成式AI领域尤其在文本能力输出上已经从“落后”到追赶,甚至内容质量上、内容组合等能力上已经超过GPT-4o。
02 对比之下,Gemini综合能力不容忽视
在测试过程中,我们发现Gemini不仅支持文本内容提问,且也支持语音提问。但因国内网络受限,暂无法对语音功能进行测试,也无法判断这是否为谷歌发布会上提到的Astra。相较于谷歌的快速,GPT-4o目前仍是支持单一的文本内容提问。
如何系统的去学习大模型LLM ?
作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。
但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的 AI大模型资料
包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
😝有需要的小伙伴,可以V扫描下方二维码免费领取🆓
一、全套AGI大模型学习路线
AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!
二、640套AI大模型报告合集
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
三、AI大模型经典PDF籍
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。
四、AI大模型商业化落地方案
阶段1:AI大模型时代的基础理解
- 目标:了解AI大模型的基本概念、发展历程和核心原理。
- 内容:
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
- L1.4.1 知识大模型
- L1.4.2 生产大模型
- L1.4.3 模型工程方法论
- L1.4.4 模型工程实践 - L1.5 GPT应用案例
阶段2:AI大模型API应用开发工程
- 目标:掌握AI大模型API的使用和开发,以及相关的编程技能。
- 内容:
- L2.1 API接口
- L2.1.1 OpenAI API接口
- L2.1.2 Python接口接入
- L2.1.3 BOT工具类框架
- L2.1.4 代码示例 - L2.2 Prompt框架
- L2.2.1 什么是Prompt
- L2.2.2 Prompt框架应用现状
- L2.2.3 基于GPTAS的Prompt框架
- L2.2.4 Prompt框架与Thought
- L2.2.5 Prompt框架与提示词 - L2.3 流水线工程
- L2.3.1 流水线工程的概念
- L2.3.2 流水线工程的优点
- L2.3.3 流水线工程的应用 - L2.4 总结与展望
- L2.1 API接口
阶段3:AI大模型应用架构实践
- 目标:深入理解AI大模型的应用架构,并能够进行私有化部署。
- 内容:
- L3.1 Agent模型框架
- L3.1.1 Agent模型框架的设计理念
- L3.1.2 Agent模型框架的核心组件
- L3.1.3 Agent模型框架的实现细节 - L3.2 MetaGPT
- L3.2.1 MetaGPT的基本概念
- L3.2.2 MetaGPT的工作原理
- L3.2.3 MetaGPT的应用场景 - L3.3 ChatGLM
- L3.3.1 ChatGLM的特点
- L3.3.2 ChatGLM的开发环境
- L3.3.3 ChatGLM的使用示例 - L3.4 LLAMA
- L3.4.1 LLAMA的特点
- L3.4.2 LLAMA的开发环境
- L3.4.3 LLAMA的使用示例 - L3.5 其他大模型介绍
- L3.1 Agent模型框架
阶段4:AI大模型私有化部署
- 目标:掌握多种AI大模型的私有化部署,包括多模态和特定领域模型。
- 内容:
- L4.1 模型私有化部署概述
- L4.2 模型私有化部署的关键技术
- L4.3 模型私有化部署的实施步骤
- L4.4 模型私有化部署的应用场景
学习计划:
- 阶段1:1-2个月,建立AI大模型的基础知识体系。
- 阶段2:2-3个月,专注于API应用开发能力的提升。
- 阶段3:3-4个月,深入实践AI大模型的应用架构和私有化部署。
- 阶段4:4-5个月,专注于高级模型的应用和部署。
这份完整版的大模型 LLM 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓