原文地址:
对话 MiniMax 闫俊杰:现在的 AI 应用不会成为 Super App,但这不重要
概述
MiniMax CEO 闫俊杰分享了他对GPT-4o、谷歌I/O发布会的看法,讨论了AI技术的现状和未来发展方向,以及他在创立MiniMax过程中的思考与实践。文章涵盖了语音助理技术、行业赛点、多模态融合、技术成本、投流与PMF、生态竞争等多个方面,展示了闫俊杰对AI行业的深刻理解和洞察。
详细总结
谈GPT-4o和谷歌I/O发布会 ——语音助理:效果惊艳、能提升用户渗透率,且在技术上并不难实现
-
观察与发现: 闫俊杰对GPT-4o的发布会印象深刻,认为其语音交互效果惊艳,但技术难度并不高。相比之下,谷歌发布会展示的AI搜索技术更令人震撼,特别是在多步推理和实时信息处理方面具有很大优势。
-
主要论点: 语音交互技术虽然看似复杂,但通过将语音模型与语言模型对齐,可以显著提升用户体验,降低延时,提高用户渗透率。
-
论据: 闫俊杰详细解释了语音交互技术的实现原理,指出语音速度远低于文字处理速度,通过流式交互技术可以将延时缩短至300毫秒。此外,他提到语音交互在车内场景的高渗透率证明了其在特定场景下的巨大潜力。
谈行业赛点:多模态融合是大模型行业「必答题」,决定效率类产品的成败
-
观察与发现: 闫俊杰认为多模态融合是未来AI行业的必答题,特别是在效率类产品中,只有最好的产品才能获得用户青睐。
-
主要论点: 大模型的未来发展方向是提升底座语言大模型的上限,并将多个模态(如语音、视觉等)融合在一起,以更好地满足用户需求,提高用户满意度。
-
支持的论据: 闫俊杰强调多模态融合的重要性,指出目前的多模态模型主要以语言模型为核心。未来的挑战在于如何将不同的模态(如声音、图片、视频)有效地融合在一起。
谈生态: 「智能语音助理」争夺战,巨头和创业公司是复杂的竞合关系
-
观察与发现: 闫俊杰指出,智能语音助理的用户体验主要取决于模型的能力,而不完全取决于产品是由巨头还是创业公司开发的。
-
论点: 在智能语音助理领域,产品的竞争力取决于技术能力,而商业竞争力则取决于用户的市场占有率。拥有设备的公司在这一领域可能更具优势。
-
论据: 闫俊杰提到苹果和谷歌在搜索领域的合作,说明拥有硬件和软件生态的公司在用户时间的占有上具有优势。即便如此,独立公司只要能提供显著提升的用户体验,也有机会在这一领域占据一席之地。
谈技术路线:投入通用基础大模型、打造通用产品,能看到真正的未来
-
观察与发现: 闫俊杰认为同时做模型和产品是必然选择,虽然风险很大,但只有这样才能最大化优化用户体验。
-
主要论点: 技术和产品的双轮驱动可以最大化优化用户体验,而单独做模型或产品的公司最终也会转向这条路径。
-
论据: 闫俊杰提到美国公司OpenAI和Anthropic的例子,说明做模型的公司最终也会选择做产品,反之亦然。这种双轮驱动的路径能更好地优化业务指标。
谈成本:技术成本两年内可能降100倍,这比探索技术上限容易多了
-
观察与发现: 闫俊杰认为降低技术成本是可以预期的,未来两年内成本可能会下降100倍。
-
主要论点: 技术成本的降低是有方法和路径的,通过优化量化、缓存、注意力等技术,可以显著降低成本。
-
支持的论据: 闫俊杰提到过去一年GPT-4o的价格已经降低了10倍,并且有望在未来两年内再降低100倍。这些成本优化方法在学术界已经多次验证。
谈投流和 PMF:国内 AI 产品不得不投流,还是技术没有拉开足够差距
-
观察与发现: 闫俊杰指出中国AI产品普遍需要投流,这是因为目前在助手类产品上没有公司能拉开显著的技术差距。
-
主要论点: 在技术能力和产品能力未能显著领先的情况下,中国AI产品不得不通过投流获取用户。而在美国市场,更多的是依靠技术和产品能力。
-
论据: 闫俊杰提到美国的ChatGPT和Character.AI没有投流,而中国的AI产品普遍需要投流。这背后是因为中国的流量被巨头垄断,投流成为获取用户的必要手段。
谈产品:虚拟社交比智能助手受欢迎,但 super app 可能并不诞生其中
-
观察与发现: MiniMax的虚拟社交产品「星野」用户量远超智能助手类产品「海螺 AI」,但闫俊杰认为现有的产品都不是最终的Super App。
-
主要论点: 现有的AI产品虽然能够取得一定的用户规模和商业成功,但未来的Super App可能会在技术进一步发展后随机涌现。
-
论据: 闫俊杰提到「星野」和「海螺 AI」在用户量和用户时长上的表现,认为现有的AI产品还有很大的提升空间。未来需要在技术进步和用户体验优化上持续努力。