文章目录
最近对于国外大模型的公司
只能用一个字“卷”来形容了
3月8日消息,又一家生成式AI独角兽
推出了号称性能可以匹敌GPT-4的大模型
而且训练计算量只用了GPT-4的40%
,
这就是Inflection AI
最新发布的Inflection-2.5大语言模型
拥有独特的同理心微调
兼具高智商与高情商
支持联网查询内容
现在可以登录Pi聊天机器人的网页
、iOS、安卓和桌面端app
免费体验
不得不说,一个月之内
GPT-4连迎三个强劲的新竞争对手
Gemini 1.5 Pro
、Claude 3 Opus
以及最新登场的Infection-2.5
这似乎意味着GPT-4独霸时代已经过去
大模型群雄开始逐鹿中原
在这场激烈的战事中
Inflection AI
显得既年轻又锋芒毕露
成立刚刚满两年
是由前DeepMind首席科学家凯伦·西蒙尼安 Karén Simonyan
、LinkedIn联合创始人里德·霍夫曼 Reid Hoffman
、DeepMind联合创始人穆斯塔法·苏莱曼 Mustafa Suleyman
共同创办
2023年6月获得了英伟达、微软等参投的13亿
美元融资
估值达到40亿美元
折合人民币大约287亿
人民币
是当前全球第四大生成式AI独角兽
也是OpenAI ChatGPT
的劲敌之一
以“为每个人创造一个个性化的AI
”为使命
他们在2023年5月
推出了一款具有同理心、乐于助人和安全的个性化AI聊天助手Pi
11月推出了基础模型Inflection-2
当时号称是全世界第二的大语言模型
与此同时
Inflection AI
正在构建由22000块H100 GPU
组成的世界最大AI计算集群
现在
Inflection AI进一步给Pi加了点料
新升级的Inflection-2.5
号称有“世界级的智商”、“独特的善良”、“好奇的个性”,
并且具备4个主要亮点
1、在关键基准测试
中可以与GPT-4
并驾齐驱
并且仅仅使用了40%的计算量来训练
与其他顶级基础模型相比
训练效率优势显著
2、在STEM领域
也就是科学、技术、工程、数学领域
进步显著
3、“世界级”的实时网络搜索功能
确保用户能获得高质量、最新的新闻和信息
增强用户体验和交互的即时性
4、广泛的可用性+显著的满意度
不仅对所有Pi用户开放
而且支持多平台访问
有助于提升用户的情绪、参与度和留存率
IQ导向任务性能
最早发布的Inflection-1
使用了GPT-4训练FLOPs
的大约4%
,
在不同的智商导向任务
中
平均性能达到GPT-4水平的大约72%
。
Inflection-2.5用了GPT-4训练FLOPs
的40%
,
在不同的IQ导向任务
中
平均性能达到了GPT-4的94%
以上
MMLU基准测试
Inflection-2.5
在MMLU基准测试
上的成绩
相较Inflection-1
有明显的进步
但是依然略低于GPT-4
这个基准测试衡量了从高中到专业难度的各种任务的性能
GPQA钻石基准
Inflection AI还根据GPQA钻石基准
进行了评估
这是一个极难的专家级基准
相比于GPT-4,分差只有不到2%
。
它的测试还包括两种不同的STEM考试
的结果
分别是匈牙利数学考试
和物理GRE
的表现
可以看到,在maj@8
的评分标准
下
Inflection-2.5的表现达到了所有参考人群
的第85百分位
在maj@32
的评分标准下
其成绩几乎拿到了95百分位
的高分
当然,GPT-4还是更胜一筹
在maj@8
评分标准下就拿到了97百分位
BIG-Bench-Hard
在BIG-Bench-Hard
上
Inflection-2.5性能比Inflection-1
提高10%以上
距离GPT-4只有0.9%
。
MT-Bench
在MT-Bench
上评估模型后
Inflection AI
意识到
在推理、数学、编程类别中
有接近25%
的示例
具有不正确的参考解决方案
或者具有错误前提的问题
因此Inflection AI更正了这些示例
并且发布了该版本的数据集
在修正之后的数据集上
Inflection-2.5的表现会更加符合其他基准测试
所预期的结果
与Inflection-1
相比
Inflection-2.5
在数学和编程性能方面有了显著进步
但是相比GPT-4来说
还有很长一段路要走
MBPP、HumanEval
86.3比92.0,43.1比52.9
在MBPP
和HumanEval
两个编程基准上的评测结果
Inflection-2.5也比初代有着明显的提升
但是同样与GPT-4还有不小的差距
HellaSwag、ARC-C
在HellaSwag
和ARC-C
常识和科学基准测试上进行评估
Inflection-2.5同样表现强劲
前面所有的评估都是用现在为Pi提供动力
的模型Inflection-2.5
完成的
但是Inflection AI还注意到
受到web检索
的影响、少量提示词的结构
以及其他生产端
的差异
可能会带来不同的用户体验
在发布说明中
这家独角兽企业还专门致谢了
为它提供算力资源的合作伙伴Azure
和CoreWeave
Azure微软的云计算服务
这个不用多说了
CoreWeave
则是去年凭借英伟达
的支持
坐拥数万块芯片
狂揽算力大单的GPU云服务黑马
2023年初,CoreWeave
找到Inflection
并为它提供了几千张H100 GPU
英伟达看中了这个组合的巨大潜力
先后向两家公司投资数亿美元
抬高了Coreweave
的H100供货优先级
2023年6月
Inflection AI
宣布与将与合作伙伴CoreWeave
、英伟达
一起
构建世界上最大的AI集群
包含22000个H100 GPU
不同于ChatGPT等产品的“生产力工具”
定位
Pi想做的是“个人AI”
,
成为用户24小时在线的数字朋友
更注重为用户带来友好、丰富的社交互动体验
Pi能记住
与跨平台登录用户的100次对话
支持网页、APP、短信、社交平台
等设备交互
相比其他AI聊天机器人
Pi可能在文本生成
、代码生成
等能力上不算出众
但是在安全
、同理心
等特性上独树一帜
这也是为什么这家创业公司刚创办
就从微软等公司筹集了2.25亿美元
一年后又拿到微软、英伟达、微软联合创始人比尔·盖茨
、Alphabet前CEO 埃里克·施密特Eric Schmidt
等的13亿
美元融资
飞速成为全球最大的生成式AI独角兽之一
的原因
截至2023年年底
Inflection AI估值约为40亿美元
已经成为全球第四大生成式AI独角兽
仅次于OpenAI
、Anthropic
、Character AI
这个2022年3月成立的年轻AI团队
能赢得微软和英伟达两大巨头的青睐
与它的创始团队密不可分
Reid Hoffman
Inflection AI
联合创始人Reid Hoffman
被称作“硅谷人脉王”
,
是硅谷最有名的天使投资人
之一
他是全球最大专业社交网站LinkedIn
的联合创始人
以及风险投资机构Greylock Partners
的合伙人
曾是OpenAI的创始投资者
截至2023年5月
Reid Hoffman
和Greylock Partners
已经投资至少37家AI公司
Mustafa Suleyman
另一位联合创始人Mustafa Suleyman
2009年与几位合伙人共同创立DeepMind
并将研究重点放到了AI在医疗健康
和气候变化
中的应用
但是连年亏损压得Suleyman
喘不过气
2014年,谷歌抛出橄榄枝
6亿美元
将DeepMind
收入麾下
背靠金主的DeepMind终于可以没有资金之忧地继续从事前沿研究
然而5年后
Suleyman
却选择离开DeepMind
加入谷歌并担任AI产品管理
和AI政策副总裁
背后原因
据说是由于一些同事曾经抱怨他在工作上骚扰和欺凌同事
Suleyman也曾坦言
作为DeepMind
的联合创始人
他对员工的要求过于苛刻
有时他的管理风格并不具有建设性
2022年,他离开谷歌
创办Inflection AI
并担任CEO
“希望与有远见和无所畏惧的创始人在一起”
。
凯伦·西蒙尼安
第三位联合创始人是前DeepMind首席科学家凯伦·西蒙尼安
现任Inflection AI
首席科学家
他是同一代中成就突出的深度学习研究者之一
他的出版物包括5篇在学术顶级期刊Nature和Science上发表的论文
吸引了超过18万次引用
凯伦·西蒙尼安
在牛津大学
完成了博士学位
和博士后学位
期间设计了VGGNet图像处理框架
并赢得了知名的ImageNet挑战赛
随后他创办Vision Factory AI
公司
将VGGNet
商业化
这家公司很快就被DeepMind
收购
他的身份则变成了DeepMind
首席科学家
任职期间
他建立并领导了大规模深度学习团队
开发了基于真实世界数据的大型AI模型
他在AlphaZero
、AlphaFold
、WaveNet
、BigGAN
和Flamingo
等AI研究突破中
均发挥了关键作用
目前Inflection AI
团队拥有70名
员工
而Pi聊天机器人
拥有100万日活跃用户
和600万月活跃用户
累计来往发送了超过40亿条消息
用户与Pi的平均谈话时间为33分钟
每天有十分之一的谈话
时间超过1小时
在任何一周与Pi交谈的用户中
约有60%的人会在接下来的一周返回
月粘性
高于主要竞争对手
随着Inflection-2.5
强大能力的加持
用户与Pi的对话话题比以往更加广泛
他们不仅讨论最新的时事
还能获取本地餐厅的推荐
、备考生物学考试
、草拟商业计划
、进行编程
、准备重要的对话
甚至仅仅是分享和讨论自己的兴趣爱好
Inflection AI
认为
新推出的Inflection-2.5
保持了Pi的独特、平易近人的个性和出色的安全标准
同时成为一个更有用的模型
这个“智商”更加接近GPT-4的模型
将让Pi在更具人性温度的同时
成为能够提供更好建议的个人AI朋友
随着Inflection-2.5
的发布
以及大模型性能的不断升级
如何用更少的计算资源训练出更强的模型
可能将是接下来产学界都会要重点探索的一个方向
最后,亲自实测了一下
不过说老实话
效果没有预想的那么好
不仅把哆啦A梦
识别为鸟山明
的作品
就连问一个女朋友必杀题
按照它的回答估计也得被收拾了
数学问题上确实比GPT-4
和Claude 3
要差的很多
英文问答上可能会略好一些
大家有时间也可以去试用一下