Inflection AI发布最新Inflection-2.5大模型

最近对于国外大模型的公司

只能用一个字“卷”来形容了

3月8日消息,又一家生成式AI独角兽

推出了号称性能可以匹敌GPT-4的大模型

而且训练计算量只用了GPT-4的40%

这就是Inflection AI最新发布的Inflection-2.5大语言模型

拥有独特的同理心微调

兼具高智商与高情商

支持联网查询内容

现在可以登录Pi聊天机器人的网页、iOS、安卓和桌面端app

免费体验

不得不说,一个月之内

GPT-4连迎三个强劲的新竞争对手

Gemini 1.5 ProClaude 3 Opus

以及最新登场的Infection-2.5

这似乎意味着GPT-4独霸时代已经过去

大模型群雄开始逐鹿中原

在这场激烈的战事中

Inflection AI显得既年轻又锋芒毕露

成立刚刚满两年

是由前DeepMind首席科学家凯伦·西蒙尼安 Karén Simonyan、LinkedIn联合创始人里德·霍夫曼 Reid Hoffman、DeepMind联合创始人穆斯塔法·苏莱曼 Mustafa Suleyman共同创办

2023年6月获得了英伟达、微软等参投的13亿美元融资

估值达到40亿美元

折合人民币大约287亿人民币

是当前全球第四大生成式AI独角兽

也是OpenAI ChatGPT的劲敌之一

以“为每个人创造一个个性化的AI”为使命

他们在2023年5月

推出了一款具有同理心、乐于助人和安全的个性化AI聊天助手Pi

11月推出了基础模型Inflection-2

当时号称是全世界第二的大语言模型

与此同时

Inflection AI正在构建由22000块H100 GPU组成的世界最大AI计算集群

现在

Inflection AI进一步给Pi加了点料

新升级的Inflection-2.5号称有“世界级的智商”、“独特的善良”、“好奇的个性”,

并且具备4个主要亮点

1、在关键基准测试中可以与GPT-4并驾齐驱

并且仅仅使用了40%的计算量来训练

与其他顶级基础模型相比

训练效率优势显著

2、在STEM领域

也就是科学、技术、工程、数学领域进步显著

3、“世界级”的实时网络搜索功能

确保用户能获得高质量、最新的新闻和信息

增强用户体验和交互的即时性

4、广泛的可用性+显著的满意度

不仅对所有Pi用户开放

而且支持多平台访问

有助于提升用户的情绪、参与度和留存率

IQ导向任务性能

最早发布的Inflection-1

使用了GPT-4训练FLOPs的大约4%

不同的智商导向任务

平均性能达到GPT-4水平的大约72%

Inflection-2.5用了GPT-4训练FLOPs40%

在不同的IQ导向任务

平均性能达到了GPT-4的94%以上

MMLU基准测试

Inflection-2.5MMLU基准测试上的成绩

相较Inflection-1有明显的进步

但是依然略低于GPT-4

这个基准测试衡量了从高中到专业难度的各种任务的性能

GPQA钻石基准

Inflection AI还根据GPQA钻石基准进行了评估

这是一个极难的专家级基准

相比于GPT-4,分差只有不到2%

它的测试还包括两种不同的STEM考试的结果

分别是匈牙利数学考试物理GRE的表现

可以看到,在maj@8评分标准

Inflection-2.5的表现达到了所有参考人群第85百分位

maj@32的评分标准下

其成绩几乎拿到了95百分位的高分

当然,GPT-4还是更胜一筹

maj@8评分标准下就拿到了97百分位

BIG-Bench-Hard

BIG-Bench-Hard

Inflection-2.5性能比Inflection-1提高10%以上

距离GPT-4只有0.9%

MT-Bench

MT-Bench上评估模型后

Inflection AI意识到

在推理、数学、编程类别中

有接近25%的示例

具有不正确的参考解决方案或者具有错误前提的问题

因此Inflection AI更正了这些示例

并且发布了该版本的数据集

在修正之后的数据集上

Inflection-2.5的表现会更加符合其他基准测试所预期的结果

Inflection-1相比

Inflection-2.5在数学和编程性能方面有了显著进步

但是相比GPT-4来说

还有很长一段路要走

MBPP、HumanEval

86.3比92.0,43.1比52.9

MBPPHumanEval两个编程基准上的评测结果

Inflection-2.5也比初代有着明显的提升

但是同样与GPT-4还有不小的差距

HellaSwag、ARC-C

HellaSwagARC-C常识和科学基准测试上进行评估

Inflection-2.5同样表现强劲

前面所有的评估都是用现在为Pi提供动力的模型Inflection-2.5完成的

但是Inflection AI还注意到

受到web检索的影响、少量提示词的结构以及其他生产端的差异

可能会带来不同的用户体验


在发布说明中

这家独角兽企业还专门致谢了

为它提供算力资源的合作伙伴AzureCoreWeave

Azure微软的云计算服务这个不用多说了

CoreWeave则是去年凭借英伟达的支持

坐拥数万块芯片狂揽算力大单的GPU云服务黑马

2023年初,CoreWeave找到Inflection

并为它提供了几千张H100 GPU

英伟达看中了这个组合的巨大潜力

先后向两家公司投资数亿美元

抬高了CoreweaveH100供货优先级

2023年6月

Inflection AI宣布与将与合作伙伴CoreWeave英伟达一起

构建世界上最大的AI集群

包含22000个H100 GPU

不同于ChatGPT等产品的“生产力工具”定位

Pi想做的是“个人AI”

成为用户24小时在线的数字朋友

更注重为用户带来友好、丰富的社交互动体验

Pi能记住与跨平台登录用户的100次对话

支持网页、APP、短信、社交平台等设备交互

相比其他AI聊天机器人

Pi可能在文本生成代码生成等能力上不算出众

但是在安全同理心等特性上独树一帜

这也是为什么这家创业公司刚创办

就从微软等公司筹集了2.25亿美元

一年后又拿到微软、英伟达、微软联合创始人比尔·盖茨、Alphabet前CEO 埃里克·施密特Eric Schmidt等的13亿美元融资

飞速成为全球最大的生成式AI独角兽之一的原因

截至2023年年底

Inflection AI估值约为40亿美元

已经成为全球第四大生成式AI独角兽

仅次于OpenAIAnthropicCharacter AI

这个2022年3月成立的年轻AI团队

能赢得微软和英伟达两大巨头的青睐

与它的创始团队密不可分

Reid Hoffman

Inflection AI联合创始人Reid Hoffman被称作“硅谷人脉王”

是硅谷最有名的天使投资人之一

他是全球最大专业社交网站LinkedIn的联合创始人

以及风险投资机构Greylock Partners的合伙人

曾是OpenAI的创始投资者

截至2023年5月

Reid HoffmanGreylock Partners已经投资至少37家AI公司

Mustafa Suleyman

另一位联合创始人Mustafa Suleyman

2009年与几位合伙人共同创立DeepMind

并将研究重点放到了AI在医疗健康气候变化中的应用

但是连年亏损压得Suleyman喘不过气

2014年,谷歌抛出橄榄枝

6亿美元DeepMind收入麾下

背靠金主的DeepMind终于可以没有资金之忧地继续从事前沿研究

然而5年后

Suleyman却选择离开DeepMind

加入谷歌并担任AI产品管理AI政策副总裁

背后原因

据说是由于一些同事曾经抱怨他在工作上骚扰和欺凌同事

Suleyman也曾坦言

作为DeepMind的联合创始人

他对员工的要求过于苛刻

有时他的管理风格并不具有建设性

2022年,他离开谷歌

创办Inflection AI并担任CEO

“希望与有远见和无所畏惧的创始人在一起”

凯伦·西蒙尼安

第三位联合创始人是前DeepMind首席科学家凯伦·西蒙尼安

现任Inflection AI首席科学家

他是同一代中成就突出的深度学习研究者之一

他的出版物包括5篇在学术顶级期刊Nature和Science上发表的论文

吸引了超过18万次引用

凯伦·西蒙尼安牛津大学完成了博士学位博士后学位

期间设计了VGGNet图像处理框架

并赢得了知名的ImageNet挑战赛

随后他创办Vision Factory AI公司

VGGNet商业化

这家公司很快就被DeepMind收购

他的身份则变成了DeepMind首席科学家

任职期间

他建立并领导了大规模深度学习团队

开发了基于真实世界数据的大型AI模型

他在AlphaZeroAlphaFoldWaveNetBigGANFlamingo等AI研究突破中

均发挥了关键作用

目前Inflection AI团队拥有70名员工

Pi聊天机器人拥有100万日活跃用户600万月活跃用户

累计来往发送了超过40亿条消息

用户与Pi的平均谈话时间为33分钟

每天有十分之一的谈话时间超过1小时

在任何一周与Pi交谈的用户中

约有60%的人会在接下来的一周返回

月粘性高于主要竞争对手

随着Inflection-2.5强大能力的加持

用户与Pi的对话话题比以往更加广泛

他们不仅讨论最新的时事

还能获取本地餐厅的推荐备考生物学考试草拟商业计划进行编程准备重要的对话

甚至仅仅是分享和讨论自己的兴趣爱好

Inflection AI认为

新推出的Inflection-2.5保持了Pi的独特、平易近人的个性和出色的安全标准

同时成为一个更有用的模型

这个“智商”更加接近GPT-4的模型

将让Pi在更具人性温度的同时

成为能够提供更好建议的个人AI朋友

随着Inflection-2.5的发布

以及大模型性能的不断升级

如何用更少的计算资源训练出更强的模型

可能将是接下来产学界都会要重点探索的一个方向

最后,亲自实测了一下

不过说老实话

效果没有预想的那么好

不仅把哆啦A梦识别为鸟山明的作品

就连问一个女朋友必杀题

按照它的回答估计也得被收拾了

数学问题上确实比GPT-4Claude 3差的很多

英文问答上可能会略好一些

大家有时间也可以去试用一下

  • 14
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值