大模型厂商密集发力,谷歌也开“卷”了:Gemini聊天机器人换上新模型,还能一键核查输出内容...

克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

Meta、OpenAI等大模型厂商密集发力之际,谷歌也宣布了一项重磅更新——

即日起,Gemini聊天机器人将改由Gemini 1.5 Flash驱动。

与之前的版本相比,窗口长度提高到了4倍,响应速度也更快了。

773f5ad1702139a2185aaee27c42fff8.gif

按照谷歌的介绍,新版聊天机器人背后的1.5 Flash模型,主打的就是轻量化和速度提升。

当然模型回复的质量也有提升,上下文窗口也从原先(基于1.0 Pro)的8k提升到了32k。

2ebbdc45c39ab95ab483c2c1e15032e0.png

此外新版聊天机器人还增加了“事实核查”功能,可以一键检测生成的内容是否属实,减轻模型幻觉带来的不良影响。

有网友感叹,谷歌今天表现真的很强,先是两款Aplha系模型(拿下了IMO银牌),接着Gemini也发布了更新。

6d0648f53dd80d8b587bb5cd06169d45.png

还有人开启了许愿模式,期待Google Scholar学术搜索当中也能加入AI功能。

4f74935135e48c48169223497aa6daac.png

更长上下文窗口,速度也变快了

本次更新的最主要内容,就是把免费版背后的模型从1.0Pro换成了1.5 Flash。

Gemini 1.5 Flash最早亮相于5月的谷歌I/O开发者大会。

通过训练数据的“蒸馏”,Gemini 1.5 Flash用更轻量化的体积实现了较高的生成质量。

而且小体积也让模型的速度更快、效率更高,同时它还支持多模态推理。

6e2db137d95f6b81bdfcc6d738cca078.png

谷歌介绍,此次更换模型之后,聊天机器人的速度会变得更快,同时旧版8k的上下文窗口,扩增到了32k。

不过1.5 Flash自身是支持1百万的上下文的,这样的削减幅度属实是不小,但毕竟是免费免费版本。

除了模型的升级,另外一项重要更新就是事实核查功能了。

在最新的Gemini聊天机器人当中,可以通过该功能一键对输出的内容进行检查。

系统会针对输出中的内容在谷歌上进行搜索和比对,然后标记出相符和不符之处

27f7d077fcbd8afd529a31ecab87787c.png

有网友评论说,看到OpenAI上线GPT-4o mini时就觉得谷歌上新只是个时间问题。

的确,不仅是OpenAI和谷歌,Meta、Mistral等在做大模型的厂商最近都是动作频繁。

而关于模型的表现,这位网友也表示自己试过1.0 Pro和1.5 Flash,两者表现几乎相同,而1.5 Flash速度更快。

所以,谷歌的这波操作,一定程度上也是适应了最近兴起的“模型轻量化”趋势。

4ef570a9841413bc100e1df4494909f8.png

那么,更换了1.5 Flash之后的Gemini聊天机器人,表现到底怎样呢?

一键检查模型输出

量子位对新版的聊天机器人进行了简单测试。

首先来看一下这次更新的事实核查功能,第一步是像正常对话一样随便提一个问题,Gemini也会正常作答。

34e1449088fee75837300100140f93e1.png

可以看到在答案的下方有一个谷歌的logo,这就是事实核查功能的按钮了。

点击之后系统会自动在谷歌进行搜索,然后与自己的输出内容进行比对。

ee6f227f2bb5fc11569efa9e92851ea8.png

比对完成后,能够搜索到信源且相符的内容会被高亮为绿色,如果与搜索结果存在出入,则会以浅红底色标注。

22c94fb6005d756bb644e2426d534d2c.png

点击标注的位置,可以看到Gemini用于对比的内容链接。

需要注意的是,这样的标注并不意味着输出的内容是错误的,比如这里引用的对比资料中,汤姆克鲁斯的母亲是Marry Lee South。

由于文本不匹配,导致答案中这一部分被系统标注,但实际上两个都是正确答案。

27cea158678dd6a321ebae76c90e6397.png

由于这个事实核查依靠的是互联网搜索,对比资料的质量也是参差不齐,不一定能做到100%的准确。

比如关于“林黛玉倒拔垂杨柳”这个经典段子,Gemini明明给出了正确答案,结果却被标红了。

63684e401b0311f3ae4021d2a69b34c5.png

再一看引用的对比信息,属实是有些难绷了。

138ce859de208eef59ebf14cd7267f3e.png

所以这个功能的作用,主要是提供了一个更便捷的核查途径,但具体应当如何采信,还是要依靠多方查证,以及用户自己的判断

另外,关于模型本身,我们也测试了几个最近流行的让大模型屡屡碰壁的难题。

比如数字比大小,Gemini甚至把两个数字换算成了钱,但一通操作之后最后的结果是……错的。

自从这个问题被发现以来,如果这个是第二搞笑的答案的话,应该没有哪个模型敢称第一了。

4f5862777956bc1816ee981bd02354c4.png

还有一开始给了个错误答案,后面分析过程中纠正过来的。

5e3d430dd433a1f8005015b93484c811.png

但如果用英语提问,还是有希望直接答对的。

264a680dd819fc34d15c56e0212773f9.png

还有数字母的问题,这个回答竟然能从中文里数出字母来……也是把人给整不会了,完全不在预判之内。

6c610d23deb737900bc3da63dfc18001.png

最后,关于此次更新中提到的速度提升,经测试发现,Gemini 1.5 Flash输出第一个字的耗时要短于Claude 3 Haiku,后续的速度用肉眼观察区别不是很明显。

4e464d6a53e4a142563ba6897416d1ea.gif

以上就是Gemini 1.5 Flash在聊天机器人中的表现,感兴趣的读者可以自行尝试。

参考链接:
[1]https://blog.google/products/gemini/google-gemini-new-features-july-2024/
[2]https://x.com/GeminiApp/status/1816512086232731696

量子位年度AI主题策划正在征集中!

欢迎投稿专题 一千零一个AI应365行AI落地方案

或与我们分享你在寻找的AI产品,或发现的AI新动向

cc6a813b54d67cc93e17192a13478464.png

点这里👇关注我,记得标星哦~

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值