谷歌造出了比人还牛的AI大模型？

最新推荐文章于 2024-05-20 19:08:38 发布

乔代码嘚

最新推荐文章于 2024-05-20 19:08:38 发布

阅读量583

点赞数 24

文章标签：人工智能 ai 大模型

本文链接：https://blog.csdn.net/Trb701012/article/details/138317450

版权

今天凌晨，谷歌发布了全新的大模型——双子星（Gemini），号称在多方面超过GPT4.0，起初，我是不在意的，毕竟几乎每个大模型都曾声称“超过”GPT4.0，但用起来，一个能打的都没有。

但看完Gemini的演示，人直接傻掉了，这种震撼不亚于第一次看到ChatGPT和人类交流，黑猩猩第一次把骨头扔上天，哆啦A梦给大雄掏出任意门。

演示刚开始，测试人员就和Gemini玩起了“街头杂耍”，将一个纸球放进三个杯子里，然后不停的变换，最终，让Gemini猜纸球在哪个杯子里，不出意外，它猜对了。

01 AI第一次的真·多模态

在这过程中，Gemini仅靠视频画面，不仅识别出游戏，还把自己代入了参与者的角色，并且还猜对了答案。这种多模态的输入能力，在之前是从来没有过的！

当然，这还不算完，演示人员还展示了一个鸭子从简笔画到上色的过程，其中的每一步，Gemini不仅准确识别，甚至还说出“蓝色鸭子不常见，建议使用黄色等常见颜色”。

在人类把蓝色橡皮鸭子拿出来后，Gemini也做出幽默的反应，并且识别出它的材质和作用，最后，Gemini甚至还纠正了测试者普通话“鸭子”的发音，这一波，可谓是把Gemini多模态能力的秀到爆炸。

当然，不止如此，如果各位老爷继续看完这个视频，会发现像猜拳，识别物品，识别电影镜头，这些对于AI来讲，都已经不是难题了。

那么，Gemini的这种多模态能力是为何如此突出的呢？为什么像GPT4.0这样的大模型做不到如此“丝滑”？

我们先来看看目前的AI是如何实现多模态的。在训练文本模型的时候，只灌输书籍，文章类的文本数据，训练图像模型的时候，训练数据就变为了各式各样的图片，视频，音频等模型，也是如此。

因此，不同模态的模型之间是有一定隔阂的，拿B站的视频AI总结来说，声音模型先把视频的声音转成文字，然后再转给处理文字的模型，最终成为了文字版的总结。

换句话讲，目前的多模态模型，并不能像人一样去理解视频。但Gemini完全不一样，它是原生的多模态模型。从训练初始，Gemini一直被投喂的数据，就是文本+语音+图片+视频。也就是说，Gemini可以像人类一样理解看到的内容，数据不需要在多个模型之间来回流转，一个模型就搞定了一切。

根据演示，Gemini可以很好的将各种模态下的信息，整合到一起进行推理，除了前面视频中额演示外，谷歌还放出很多演示视频，再说两个令人深刻的吧。

第一个是人类要求Gemini根据这个树的图片，生成无损放大的矢量图，Gemini照猫画虎做出来了。紧接着的要求就变态了，要求用HTMl和JavaScript编程语言，生成这个树。结果还真被Gemini搞出来了。从这两点可以看出，Gemini的多模态输出能力也很强悍。

第二个就是关于解答数学和物理题目的。放几张学生潦草的作业上去，Gemini都可以判断出答案的正确与否，并且根据错误的地方，给出正确的推导过程，看来，数学和物理都是手拿把掐。

02 Gemini性能超越GPT4.0？

之所以在数学和物理上有这么强的能力，和Gemini超强的性能分不开。除了多模态的识别，Gemini在常识，推理上也创造了很多记录，从结果图标上看，它几乎超越了目前最强模型GPT4.0。

根据谷歌的技术文档显示，Gemini在32个AI模型评测中都拔得了头筹。更令人意外的是，它还达成了MMLU中首次超过人类专家的成就，成为第一个完成此壮举的AI。

在这里插入图片描述

MMLU全称是测量大模型多任务下的语言理解能力。读起来挺拗口，其实很好理解，这个就像对于大模型的中考，里面包含了基础数学，历史，法律等共57个方面的题目，难度从高中到大学不等。

在MMLU出来后，人类各方面的专家做过测试，平均下来正确率为89.8%，所以MMLU的作者就把这个89.8%作为一个标准，谁家AI能超过它，那你就比人类还牛了。

其中的题目是啥样的呢？我们把这些题目下载过来，简单看了看，发现含金量还是有的，比如在“会计”项目中，题目大多是这样的：

你花98,000美元买了一辆豪华轿车，并计划以每小时245美元的价格出租用于婚礼、典礼和派对。如果你估计这辆车平均每天被租用2小时，每天的成本约为50美元，那么如果你全年无休地工作，即包括任何节日和周末在内，你投资的预估年收益是多少？

不知道各位会不会算，反正办公室的同事们还是费了点功夫的。法律部分的题目如下：

一地方法律规定：“任何人在知道或应该知道自己正在被警察逮捕时，有责任不使用武力或任何武器抵抗逮捕”。违反该法律规定将受到罚款和/或监禁。一天早晨，该地方发生了一起银行抢劫案。当天下午，一名警官逮捕了一名他认为涉及犯罪的嫌疑人。然而，警官和嫌疑人对接下来发生的事情的描述不一致。据警官称，嫌疑人在被捕后抵抗逮捕，并用拳头打了警官的嘴。警官一时愣住后，拔出警棍并用其击打嫌疑人的头部。另一方面，嫌疑人声称，在他被逮捕后，他辱骂了警察，随后警官开始用警棍打他。为了避免再次被打，嫌疑人用拳头击倒了警官。嫌疑人被指控为袭击罪。嫌疑人应该被判定为：

A:如果逮捕是非法的，没有合理的理由，并且陪审团相信嫌疑人的陈述，那么嫌疑人应被判定为无罪

B:如果逮捕是合法的，并且陪审团相信嫌疑人的陈述，那么嫌疑人应被判定为无罪

C:如果逮捕是合法的，无论陪审团相信哪一方的陈述，嫌疑人应被判定为有罪

D:如果逮捕是合法的，并且陪审团相信嫌疑人的陈述，那么嫌疑人应被判定为无罪

说实话，看完题干，不少同事都已经放弃了。MMLU中共有15908道题目，这里就随便放出上面两道给大家看看强度。Gemini在这个测试中，准确率达到了90.04%，略微超过了人类专家，也超过了准确率为**86.4%**的GPT4.0。

MMLU是2年前左右创建的，当时主要测试的还都是纯文本的理解能力，所以在这个测试中，并没有多模态的测试。因此对目前的大模型们来说，这个难度只能算是中考。

MMMU才是真正的高考，在这个测试中，不仅难度全面升级到大学水平。还加入了许多图片和图标，考察模型的多模态能力。这里也给大家放出一个，感受下：

在这里插入图片描述

题干翻译如下：图1中的数据是通过在高速公路上进行延时摄影获得的。使用回归分析将这些数据拟合到格林希尔兹模型，并确定阻塞密度。

说实话，虽然翻译过来每一个字都明白，但是合在一起，没有相关的专业知识背景，基本上不明白它的题干是什么。现在，再给大家感受下相对简单的题目：

在这里插入图片描述

两枚硬币在转盘上旋转，硬币B离轴心的距离是硬币A的两倍：

A：A的速度是B的两倍

B：A的速度和B相等

C：A的速度是B的一半

这个题目应该还算简单，正确答案是C，如果你答错了，没事，GPT-4V（GPT-4V为GTP4.0的多模态版本）答对了。前面的那道题正确答案是B，如果你答错了，没事，GPT-4V也答错了。

在MMMU的测试中，地表最强模型GPT-4V的正确率为56.8%，Gemini为59.4%，以微小的优势，成为了目前MMMU测试中，正确率最高的模型。

当然，除了MMLU和MMMU，Gemini在像数学，推理，语音识别，图像识别，视频识别等测试中也都超过了GPT4。

在这里插入图片描述

但是！谷歌的这些成绩，是在使用了思维链的情况下，在32次测试中选择一次最高分取得的，而GPT4则是在正常的情况下测试了5次，取得最高分。

思维链就像旁边有一位指导老师一样，帮助进行一些解释。比如你不认识上面题干中的东西，老师就会做一些辅导：你可以把硬币理解成一个物体，它和题目并没有直接关系；不理解速度的含义，就会告诉AI，速度就是一个物体移动的快慢。

所以Gemini在MMLU的成绩多少有些不光彩，不过MMMU的测试，两者都是在条件几乎相同的情况下完成的。

总而言之，从性能测试上看，这次Gemini能不能超越GPT4不好说，但平起平坐应该问题不大。不过最有意思的是谷歌在训练Gemini所用的硬件——谷歌自己研究的TPU芯片，而不是老黄的GPU。

03 谷歌：AI全链路自产自销

在介绍完Gemini后，最新一代的谷歌TPU计算系统——Cloud TPU v5p也登场了。TPU是谷歌用来专门计算AI的芯片，它对于张量计算有着优化，并且针对自己的TensonFlow框架有着非常好的支持。
在这里插入图片描述

换成人话讲，就是谷歌自己发明了一种芯片，对于自己的AI开发框架有着特殊的调优，在训练Gemini的过程中，全部使用的都是TPU，老黄的GPU靠边去。

看来，目前谷歌在AI训练上，已经形成了自产自销的的链条，相比OpenAI的只做软件，谷歌这一步，算是了。

这次Gemini共发布了三个版本，上面的测试都是在超大杯——Gemini Ultra版本中测得的，Ultra也是Gemini的完全体，用来应付一些极其复杂的任务，目前只针对一些机构和专业人员开放。预计明年年初，会对所有的机构和专业人员开放。

在这里插入图片描述

Pro版本针对的就是普通的用户了，它性能和Ultra版相比还差点，根据官方文档来看，Pro版本的水平略强于GPT3.5。目前它已经部署在自家的聊天AI——Bard上，但是明年年初才开放多模态的能力，并且同时还将开放采用Ultra版本的Bard Advanced，到时候大家就可以拍视频问AI了。

Nano则是运行手机等移动设备上的端侧AI，谷歌宣布最先运行Gemini Nano是自家的Pixel 8 Pro手机。

AGI还有多远

前两天是ChatGPT问世一周年，不少同事都在朋友圈晒了截图。在这一年时间中，AI进步的不说肉眼可见，但也绝对是神速了。

从GPT3到3.5再到4.0，对于纯文本的理解上，AI目前已经完全可用，甚至在很多方面超越人类了。而今天谷歌Gemini的发布，昭示了AI下一步——多模态，也在向我们无限靠近。

并且这也预告着，明年大模型互卷的方向将从理解和推理能力转到多模态中，预计明年这个时候，我们已经可以通过声音，图片和视频和AI交流了。

拉回到现实中，几年前，谷歌利用AlphaGo击败了李世石，今天它带着Gemini杀了回来，看来明年的AI大战一定会非常精彩。

像贾维斯一样的通用人工智能（AGI），是所有AI参与者追求的目标，现在它已经可以看，听，说了。那么离AI帮助人类做出决策还有多远呢？到时候，我一定要体验下真正的AI女友是什么样的。我们一起期待吧。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

123?spm=1001.2014.3001.5501)这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

乔代码嘚

关注

24
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
谷歌造出了比人还牛的AI大模型？

今天凌晨，谷歌发布了全新的大模型——，号称在多方面超过，起初，我是不在意的，毕竟几乎每个大模型都曾声称“超过”GPT4.0，但用起来，一个能打的都没有。但看完Gemini的演示，人直接傻掉了，这种震撼不亚于第一次看到ChatGPT和人类交流，黑猩猩第一次把骨头扔上天，哆啦A梦给大雄掏出任意门。演示刚开始，测试人员就和Gemini玩起了“街头杂耍”，将一个纸球放进三个杯子里，然后不停的变换，最终，让Gemini猜纸球在哪个杯子里，不出意外，。
复制链接

扫一扫