大模型日报20240401_光年之外公司张涛-CSDN博客

本文链接：https://blog.csdn.net/Kingsea442/article/details/137258178

文章探讨了大模型如GPT-4与Mistral在《街霸》游戏中的对决，展示了新型AIBenchmark的兴起。同时，StableDiffusion的技术进展和万亿参数模型的开发，如阶跃星辰的Step-1和Step-1V，以及AI安全平台Rug.ai的融资，都在文中有所提及，反映了AI行业的技术竞争和资本投入情况。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

大模型实时打《街霸》捉对PK，GPT-4居然不敌3.5，新型Benchmark火了

链接：https://news.miracleplus.com/share_link/22340

在这里插入图片描述

让大模型直接操纵格斗游戏《街霸》里的角色，捉对PK，谁更能打？GitHub上一种你没有见过的船新Benchmark火了。与llmsys大模型竞技场中，两个大模型分别输出答案，再由人类评分不同——街霸Bench引入了两个AI之间的交互，且由游戏引擎中确定的规则评判胜负。这种新玩法吸引了不少网友来围观。由于项目是在Mistral举办的黑客马拉松活动上开发，所以开发者只使用OpenAI和Mistral系列模型进行了测试。排名结果也很出人意料。经过342场对战后，根据棋类、电竞常用的ELO算法得出的排行榜如下：最新版gpt-3.5-turbo成绩断崖式领先，Mistral小杯排第二。更小的模型超过了更大的如GPT-4和Mistral中杯大杯。

「理论与实践」AIPM 张涛：关于Diffusion你应该了解的一切

链接：https://news.miracleplus.com/share_link/22325
在这里插入图片描述
Stable Diffusion的亮相之初，在Github 排行榜，在不到两个月的时间内飙升至 33K star。

奇绩邀请了张涛老师来做分享，张涛老师为光年之外产品负责人，在这篇分享中，张涛老师以产品的角度带领技术小白了解Diffusion的底层原理，也进一步通过基于Diffusion的一些技术进展，SD在过去的一年半的时间里面，在整个行业里面构成了一个什么样子的生态？在这样子的生态里面，我们在产品上面的机会有哪些，以及作为产品经理，我们该如何去做。

告别微软，姜大昕带领这支精英团队攀登Scaling Law，万亿参数模型已有预览版

链接：https://news.miracleplus.com/share_link/22334

在这里插入图片描述

万亿参数模型对于算力、数据的海量需求也注定了，这不会是一场「百模大战」，而是少数一些玩家才能参与的角逐。就像前微软全球副总裁、如今的阶跃星辰创始人姜大昕所说，「GPT-3.5 会是一个分水岭，在超过 GPT-3.5 之后，可能只有极少数的公司会继续攀登 Scaling Law。在算力、系统、数据和算法等各个方面，万亿参数模型的难度都上升了几十倍。如果这里面有任何一个短板，Scaling Law 都很难攀登上去。」作为一位大模型领域的创业者，这番话其实也道出了姜大昕创业以来的一些体会。目前，他带领的阶跃星辰已经做出了超过 GPT-3.5 的千亿参数模型 Step-1 和比肩 GPT-4V 的多模态大模型 Step-1V，甚至正在打造的万亿参数 MoE 语言大模型 Step-2 也有了预览版。在姜大昕看来，他们的路径是非常清晰的，就是沿着「单模→多模→具身智能→世界模型」的路线一步步往下走。打造万亿参数（甚至更大的）模型是其中必要的一环，在此基础上，他们还将推进多模态理解与生成的融合与统一。

AI行业买英伟达GPU，花的钱比赚的多17倍

链接：https://news.miracleplus.com/share_link/22336
在这里插入图片描述

搞 AI 大模型，实在太烧钱了。如今的生成式 AI 有很大一部分是资本游戏，科技巨头利用自身强大的算力和数据占据领先位置，并正在使用先进 GPU 的并行算力将其推广落地。这么做的代价是什么？最近《华尔街日报》一篇有关明星创业公司的报道里给出了答案：投入是产出的 17 倍。

虽然投入大，但是不做又不行，做了可能不成功，不做肯定会面临失败。大公司对于技术的创新和投入需要有这种精神，这也是一个大公司的担当。

美国升级对中国芯片打压，蔓延到AI PC

链接：https://news.miracleplus.com/share_link/22342
在这里插入图片描述
据路透社报道，美国拜登政府上周五以国家安全为由，修订了旨在阻止中国获取美国人工智能（AI）芯片和芯片制造设备的规定。新修订的规则阐明，面向中国的AI芯片出口管制也将适用于包含这些芯片的笔记本电脑。

Gecko：从大语言模型中蒸馏的多功能文本嵌入

链接：https://news.miracleplus.com/share_link/22344
在这里插入图片描述

我们介绍了Gecko，这是一个紧凑且多功能的文本嵌入模型。Gecko通过利用一个关键思路实现了强大的检索性能：从大语言模型（LLMs）中提炼知识到一个检索器中。我们的两步提炼过程从使用LLMs生成多样化的合成配对数据开始。接下来，我们通过为每个查询检索一组候选段落，并使用相同的LLMs重新标记正面和负面难题段落，进一步提炼数据质量。Gecko的紧凑性证明了我们方法的有效性。在大规模文本嵌入基准测试（MTEB）中，具有256个嵌入维度的Gecko超越了所有现有768个嵌入尺寸的条目。具有768个嵌入维度的Gecko实现了66.31的平均分数，与7倍更大的模型和5倍更高维度的嵌入进行竞争。

lunary

链接：https://news.miracleplus.com/share_link/22353
在这里插入图片描述
Lunary 是一个旨在帮助 AI 开发人员将其应用程序投入生产的工具，提供成本分析、监控、快速模板、数据集调整、聊天和反馈跟踪以及评估等功能。它的设计旨在与任何模型兼容，易于集成（仅需2分钟），并且简单易于自行托管。

人工智能安全平台Rug.ai获得110万美元种子轮融资

链接：https://news.miracleplus.com/share_link/22356

在这里插入图片描述

据Foresight News报道，人工智能安全平台rug.ai在种子轮前融资中成功筹集了110万美元。本轮融资由No Limit Holdings领投，同时得到了Mask Network、Builder Capital、Formless Capital、Prismatic Capital、Hack VC合伙人Roshun Patel、Grass联合创始人drej、Pentoshi、Avi Felman、MacnBTC和Andrej Radonjic的支持。rug.ai利用人工智能技术，致力于提供端到端的链上安全解决方案，旨在帮助用户识别和防范潜在的安全威胁。
链接：https://rug.ai/signin