#关于大模型「越狱」的多种方式

此项目是由伊利诺伊大学香槟分校(UIUC)的汪浩瀚教授主导,汇集了多名intern的共同努力而成。长久以来,这个跨学科的团队一直在前沿科技的浪潮中,致力于推动人工智能的革新,尤其关注于其如何更好地服务于人类社会。在这一宏伟的使命指引下,团队专注于解决两大核心问题:一是确保人工智能的可信赖性与对齐性(Trustworthy and Aligned AI),即如何保证其安全有效地融入人类生活;二是探索人工智能在推动生物医疗领域进步中的潜能和应用(Computational Biology)。

随着人工智能(AI)技术的迅猛发展,特别是大语言模型(LLMs)如 GPT-4 和视觉语言模型(VLMs)如 CLIP 和 DALL-E,这些模型在多个技术领域取得了显著的进展。LLMs 已经在自然语言处理任务中展现出了前所未有的能力,而 VLMs 则在图像和文本的融合任务中表现优异。这些技术的应用范围从自动化客服到智能创作,无不展示出其强大的潜力。然而,伴随着这些进展,安全性和伦理对齐的问题也日益凸显。

近年来,越来越多的研究者关注 LLMs 和 VLMs 的越狱现象,即通过特定技术手段绕过这些模型的内置安全机制,生成不符合伦理规范的输出。这些越狱行为不仅对模型的实际应用构成威胁,也对用户的安全和隐私带来潜在风险。因此,理解和防范这些越狱行为成为 AI 安全研究中的一个关键问题。

我们来看一个具体的关于越狱的例子:

51c大模型~合集13_AI

在上述例子中,用户输入一个恶意问题(蓝色所示),通常而言,大语言模型会拒绝回答此类问题。然而,当攻击者增加一个精心制作的越狱前缀(黄色所示),大语言模型将会对恶意问题进行详细的解答。同样,防御者可以通过增加一些安全提示(红色所示),提醒大语言模型重新思考所给出的答案,中止恶意回复。

针对上述越狱现象,近期,来自伊利诺伊大学香槟分校,布朗大学,密歇根大学安娜堡分校,香港科技大学,卡内基梅隆大学和博伊西州立大学的研究者联合发布了一篇综述,详细探讨了 LLMs 和 VLMs 的越狱现象,对各种越狱类型和相应的防御机制进行了系统分类和分析。通过对现有研究的全面综述,旨在为学术界和工业界提供一个关于 AI 模型安全性的全面视角,并提出应对这些挑战的有效策略。

  • 论文地址:https://arxiv.org/pdf/2407.01599
  • 项目地址:https://github.com/Allen-piexl/JailbreakZoo
  • 网站地址:https://chonghan-chen.com/llm-jailbreak-zoo-survey/

这篇综述提供了:

1. 越狱分类:我们将关于LLMs的越狱现象细分为5种类型,将关于VLMs的越狱现象细分为3种类型,提供了每种类型的详细分类和理解。以下是我们分类的主要内容:

LLMs

  • 梯度攻击(Gradient-based Attacks)
  • 进化攻击(Evolutionary-based Attacks)
  • 演示攻击(Demonstration-based Attacks)
  • 规则攻击(Rule-based Attacks)
  • 多代理攻击(Multi-agent-based Attacks)

VLMs

  • 提示到图像注入的越狱攻击(Prompt-to-Image Injection Jailbreaks)
  • 提示-图像扰动注入越狱攻击(Prompt-Image Perturbation Injection Jailbreaks)
  • 代理模型迁移越狱攻击(Proxy Model Transfer Jailbreaks)

此外,我们进一步整理了现有的利用越狱攻击对LLMs和VLMs进行评测的方法,以及一些相关的综述。

2. 防御机制:我们回顾并分类了各种防御策略,我们发现,LLMs和VLMs有着类似的防御机制,强调了统一方法以应对这些越狱漏洞的必要性。主要防御机制包括:

  • 提示检测(Prompt Detection-based Defenses)
  • 提示扰动(Prompt Perturbation-based Defenses)
  • 演示防御(Demonstration-based Defenses) 
  • 生成干预(Generation Intervention-based Defenses)
  • 响应评估(Response Evaluation-based Defenses) 
  • 模型微调(Model Fine-tuning-based Defenses)

3. 未来研究方向:我们的综述突出了当前研究中的关键空白,并提出了未来的研究方向,以增强LLMs和VLMs的安全框架。

越狱类型及实例 - 大语言模型(LLMs)

在我们的研究中,我们将大语言模的越狱现象进行了系统分类,归纳为七种主要类型。每种类型都有其独特的攻击方法和技术细节,通过对这些越狱类型的深入分析,我们希望能够揭示这些模型在安全性方面的潜在漏洞,并为未来的防御工作提供指导。

51c大模型~合集13_AI_02

1. 梯度攻击(Gradient-based Attacks)

梯度攻击通过利用模型的梯度信息,生成有害响应。例如,使用梯度坐标贪婪算法(GCG)生成后缀,使模型生成有害内容。此方法通过梯度优化生成能避开模型检测的提示,从而使 LLM 输出有害的响应。此类攻击常用于测试模型的安全性和鲁棒性,研究者通过此类攻击可以发现模型的潜在漏洞,并进行相应的修复和优化。

51c大模型~合集13_AI_03

2. 进化攻击(Evolutionary-based Attacks)

进化攻击使用遗传算法生成对抗性提示,优化语义相似性、攻击效果和流畅性。例如,FuzzLLM 通过随机组合模板、约束和问题集生成攻击指令。这些方法使用进化策略逐步改进提示,以找到最有效的攻击手段。进化攻击特别适合在黑盒环境中使用,即攻击者对模型内部结构和参数未知的情况下,也能进行有效攻击。

51c大模型~合集13_AI_04

3. 演示攻击(Demonstration-based Attacks)

演示攻击通过创建特定的系统提示,指示 LLMs 生成预期的响应。这些方法通常是硬编码的,提示经过精心设计以引导模型生成所需的响应。例如,DAN 方法通过预设的对话框架,使模型在 “开发者模式” 下生成本不应生成的内容。演示攻击利用模型的上下文学习能力,通过提供一系列示例,使模型更容易产生目标响应。

51c大模型~合集13_AI_05

4. 规则攻击(Rule-based Attacks)

规则攻击通过预定义的规则将恶意成分分解并重定向。攻击者设计复杂的规则,隐藏恶意内容。例如,通过词汇替换将有害意图编码为看似正常的内容,从而绕过模型的检测。这类攻击方法特别适用于绕过简单的基于关键字的检测系统,使攻击内容在输入时显得无害。

51c大模型~合集13_AI_06

5. 多代理攻击(Multi-agent-based Attacks)

多代理攻击利用多个 LLMs 合作,生成、组织和改进越狱提示。这些方法通过模拟多模型协作的方式,提高越狱攻击的效果。例如,PAIR 方法利用多个代理模型生成和评估提示,不断优化攻击策略。这种方法特别适合用于需要迭代改进的攻击场景,通过多次尝试和反馈,找到最有效的攻击手段。

51c大模型~合集13_AI_07

越狱类型及实例 – 视觉语言模型(VLMs)

与大语言模型(LLM)类似,与视觉语言模型(VLM)相关的越狱也已成为一个重要关注点。由于所有 VLM 都使用 LLM 组件进行文本编码,因此影响 LLM 的漏洞也可能会危及 VLM。此外,VLM 中视觉输入的引入不仅拓宽了其功能范围,还显著增加了攻击面,从而加剧了涉及的安全风险。与主要针对文本输入的 LLM 越狱不同,VLM 的恶意操纵可以通过视觉输入、文本组件或两者的组合进行,表现出更加复杂和多样的模式。

51c大模型~合集13_AI_08

1. 提示到图像注入的越狱攻击(Prompt-to-Image Injection Jailbreaks)

通过将恶意提示注入到图像生成过程中来绕过模型的安全机制。攻击者设计特定的文本提示,使模型生成含有不良或不符合伦理的图像。例如,攻击者可以利用一些敏感词汇或语句来引导模型生成攻击性或误导性的图像。

51c大模型~合集13_AI_09

2. 提示 - 图像扰动注入越狱攻击(Prompt-Image Perturbation Injection Jailbreaks)

提示 - 图像扰动注入越狱攻击结合了文本提示和图像扰动,通过在输入提示中加入微小的扰动,使模型生成错误或有害的响应。例如,攻击者可以在图像中加入几乎不可见的像素变化,同时调整文本提示,以引导模型生成偏离预期的描述或内容。这种方法利用了模型对微小变化的敏感性,使其难以检测和防御。

51c大模型~合集13_AI_10

3. 代理模型迁移越狱攻击(Proxy Model Transfer Jailbreaks)

代理模型迁移越狱攻击利用代理模型进行攻击,即在较小的代理模型上训练和优化攻击,然后将其转移到目标模型上。攻击者在代理模型上进行大量试验,找到有效的攻击方式,再将这些攻击应用到目标模型上。此类攻击可以有效绕过目标模型的安全机制,因为代理模型和目标模型可能共享相似的弱点和漏洞。

51c大模型~合集13_AI_11

防御机制及实例 - 大语言模型(LLMs)

51c大模型~合集13_AI_12

1. 提示检测(Prompt Detection-based Defenses)

提示检测基于输入提示的特征,如困惑度(Perplexity)和长度,评估提示的有害性。例如,通过困惑度计算器 LLM 检测输入提示的困惑度,判断其是否安全。提示检测是最早的防御策略之一,利用模型对高困惑度提示的不敏感性来判断提示的安全性。

51c大模型~合集13_AI_13

2. 提示扰动(Prompt Perturbation-based Defenses)

提示扰动通过对输入提示进行修改,破坏其恶意意图。例如,通过语义扰动和重新分词技术生成多个变体,评估每个变体的响应是否安全。此类方法利用了恶意提示对精确结构和词序的依赖,通过随机扰动破坏这些结构,使其难以成功执行攻击。

51c大模型~合集13_AI_14

3. 演示防御(Demonstration-based Defenses)

演示防御通过设置安全的系统提示,引导 LLM 生成安全响应。例如,使用自我提醒提示模型生成安全的响应。演示防御利用了模型的上下文学习能力,通过提供正面示例,增强模型对安全响应的倾向。

51c大模型~合集13_AI_15

4. 生成干预(Generation Intervention-based Defenses)

生成干预通过调整 LLM 的响应生成过程,确保输出的安全性。例如,RAIN 方法通过反复生成和评估 token,确保生成的内容安全。此类方法在生成过程中实时干预,动态调整输出内容,以避免生成有害响应。

51c大模型~合集13_AI_16

5. 响应评估(Response Evaluation-based Defenses)

响应评估通过对生成的响应进行评估,确保其安全性。例如,利用辅助 LLM 评估响应的有害性,并进行迭代改进。此类方法利用模型对自身生成内容的评估能力,通过不断优化,确保最终输出的安全。

51c大模型~合集13_AI_17

6. 模型微调(Model Fine-tuning-based Defenses)

模型微调通过调整 LLM 的内部参数,增强其安全性。例如,通过在混合数据上训练模型,使其对有害内容更加敏感,从而生成更安全的响应。此类方法直接改变模型的行为,使其在面对恶意提示时能够做出更安全的决策。

51c大模型~合集13_AI_18

防御机制及实例 – 视觉语言模型(VLMs)

在视觉语言模型中,许多防御策略与大语言模型的防御策略相似。这些策略通过调整模型的内部参数、评估生成的响应以及扰动输入提示来增强模型的安全性。

51c大模型~合集13_AI_19

1. 提示扰动防御(Prompt Perturbation-based Defenses)

提示扰动通过对输入提示进行修改,破坏其恶意意图。例如,通过语义扰动和重新分词技术生成多个变体,评估每个变体的响应是否安全。此类方法利用了恶意提示对精确结构和词序的依赖,通过随机扰动破坏这些结构,使其难以成功执行攻击。

51c大模型~合集13_AI_20

2. 响应评估防御(Response Evaluation-based Defenses)

响应评估通过对生成的响应进行评估,确保其安全性。例如,利用辅助 VLM 评估响应的有害性,并进行迭代改进。此类方法利用模型对自身生成内容的评估能力,通过不断优化,确保最终输出的安全。

51c大模型~合集13_AI_21

3. 模型微调防御(Model Fine-tuning-based Defenses)

模型微调通过调整 VLM 的内部参数,增强其安全性。例如,通过在混合数据上训练模型,使其对有害内容更加敏感,从而生成更安全的响应。此类方法直接改变模型的行为,使其在面对恶意提示时能够做出更安全的决策。

51c大模型~合集13_AI_22

未来研究方向

我们的研究不仅分析了当前 LLMs 和 VLMs 越狱现象及其防御机制,还发现了现有研究中的一些关键空白。这些空白为未来的研究提供了重要的方向,以进一步增强 AI 模型的安全性和鲁棒性。以下是我们提出的几个未来研究方向:

1. 多模态越狱攻击与防御

随着多模态 AI 系统的快速发展,如何在结合文本和图像的环境中进行越狱攻击并有效防御成为一个重要课题。未来研究应重点关注多模态模型中的越狱技术,包括如何利用视觉和文本输入的协同作用来规避安全机制。同时,需要开发专门针对多模态系统的防御策略,以确保这些系统在处理复杂任务时的安全性。

2. 自动化越狱检测与修复

现有的越狱检测方法大多依赖于手工设计的规则和特征,效率较低且难以适应不断变化的攻击手段。未来研究可以探索利用机器学习和深度学习技术,开发自动化的越狱检测与修复系统。这些系统应能够实时检测并修复潜在的越狱攻击,提升模型的自我保护能力。

3. 强化学习在越狱防御中的应用

强化学习(Reinforcement Learning, RL)在越狱防御中的应用具有广阔前景。通过 RL,模型可以在不断的交互中学习如何识别和防御越狱攻击。例如,利用 RL 技术,模型可以动态调整其内部参数和响应策略,以应对不同类型的攻击。未来研究应深入探索 RL 在越狱防御中的应用,并开发相应的算法和工具。

4. 越狱攻击的伦理与法律研究

随着越狱技术的不断发展,其潜在的伦理和法律问题也逐渐显现。未来研究应关注越狱攻击的伦理和法律影响,包括如何制定相关法规和政策来规范越狱行为。此外,还需要探索如何在技术和法律层面有效平衡创新与安全,确保 AI 技术的可持续发展。

5. 开放与封闭模型的安全对比研究

当前的研究多集中于开放源代码的模型,而对封闭源代码模型的研究相对较少。未来应更多关注开放与封闭模型在安全性方面的差异,研究如何在封闭环境中实现高效的安全防御。同时,还需探索开放模型社区的协作机制,以共享和推广有效的防御策略。

6. 用户教育与防护

除了技术层面的防御,用户教育也是防范越狱攻击的重要环节。未来研究应开发针对不同用户群体的教育资源,提高用户对越狱攻击的认知和防范能力。通过增强用户的安全意识,可以有效减少越狱攻击的成功率,从而提升整体系统的安全性。

总结

大语言模型(LLMs)和视觉语言模型(VLMs)的越狱现象和防御机制有许多共性和差异。共性源于它们都基于深度学习技术和类似的神经网络结构,且主要处理自然语言内容,因此在面临梯度攻击、进化攻击等威胁时表现出相似的脆弱性。防御策略如提示检测、提示扰动、生成干预、响应评估和模型微调在两者中也有广泛应用。然而,VLMs 由于需要处理图像和文本的组合输入,其攻击手段更为复杂,包括 Prompt-to-Image Injection 和 Prompt-Image Perturbation Injection 等多模态攻击。防御机制也因此更复杂,需要同时考虑视觉和语言输入的特性。VLMs 的训练成本较高,Proxy Model Transfer Jailbreaks 在这种情况下更为常见,攻击者利用代理模型优化攻击,再将其应用于目标模型。此外,LLMs 和 VLMs 在应用场景上有所不同,LLMs 主要用于文本生成和对话系统,而 VLMs 则用于图像生成和图文理解任务。这些共性和差异为理解和应对 AI 模型的安全威胁提供了重要的洞见,未来研究应继续关注这些方面,以开发更有效的防御策略,确保 AI 技术的安全应用。


#AMD召回所有新一代CPU

因为有 typo,召回所有已铺货芯片。

上个月,AMD 首席执行官苏姿丰博士在 ComputeX 开幕主题演讲上揭开了 Zen 5 架构的神秘面纱。作为 AMD 未来几年 CPU 的台柱子,Zen 5 立刻被引入消费级市场,面向笔记本和台式机的产品在几周内相继发布。

然而临近上市日期,AMD 突然宣布,由于「对 Ryzen 9000 系列处理器的包装产品测试流程」存在问题,其将推迟数周推出搭载 Zen 5 的 Ryzen 9000 处理器。由于最近英特尔酷睿芯片曝出问题,人们对高端芯片质量的关注度很高,AMD 的这一消息让人不禁怀疑:难道现在苏妈也不靠谱了?

随着信息逐步披露,事情逐渐变得让人忍俊不禁:一张贴错标签的 Ryzen 处理器的新图片暗示了 AMD 推迟推出芯片的主要原因之一 —— 一个简单的一位数字拼写错误。

昨天在 B 站上发布的一个提前泄露测试结果显示,AMD 的 Ryzen 7 9700X 被错误标记为 Ryzen 9 9700X 处理器,这是一个明显的错误,需要纠正。

视频发布后,tomsHardware 等海外媒体已经确认了 9700X 是错误标记,并且还了解到,贴错标签的 Ryzen 5 9600X 型号也已运往零售店 —— 这些处理器也被标记为 Ryzen 9。

我们现在可以合理地假设 AMD 零售包装盒上的标签可能也有问题。无论存在哪种情况,这似乎只是一个小问题,不过 AMD 显然必须召回所有已发货的处理器,以纠正错误的标记。

召回芯片的过程正是该公司所说的推迟其处理器发布的原因 ——AMD 表示,已经召回了所有交付给全球零售商和 OEM 的 Ryzen 9000 单元进行重新筛选,这些受影响的芯片将在筛选过程后退还给零售商。不过,AMD 尚未说明召回的具体原因。值得注意的是,「silkscreening」是行业术语,指的是芯片封装过程中,涉及激光蚀刻或打印芯片顶部标记的过程。AMD 明确指出需要进行「重新筛选」过程来解决其未定义的问题,但并未明确将其称为「silkscreening」。

AMD 在上周发布的声明中表示:「在最终检测中,我们发现首批产品并未完全达到预期的质量标准。」这表明,包装上的字印错了,可能并不是 AMD 延迟发售的唯一原因。

AMD 高级副总裁,计算和图形总经理 Jack Huynh 在 X 平台上表示:Ryzen 9000 系列处理器因质量问题将延迟上架。

根据 Jack Huynh 的发言,也引申出了另一个版本的故事:AMD 透露这次事件并不是 CPU 微架构的问题,因此不需重新设计或重新制造 Ryzen 9000 芯片,也不需改变已经定义的各型号规格。问题出在封装测试的流程,导致筛选过程中可能会令不良品通过测试。这次的延迟是出于谨慎考虑,旨在保证每个 Ryzen 用户都能获得最佳使用体验。避免类似 Intel 13、14 代处理器大规模崩溃问题重演。

现在看来,AMD 芯片的印刷问题可能早已显露端倪。海外媒体 tomsHardware 的记者拿出了在 Zen 5 技术日拍摄的 Ryzen 9 9950X 的照片,与已经上市两年的 Ryzen 9 7950X 进行了对比,不难看出,「Ryzen 9 9950X」的每个单词之间的间距似乎比 AMD 奉行多年的标准都要更宽。

Ryzen 9 9950X 最初计划在 7 月 31 日发布,但现在 AMD 已经将 Ryzen 7 9700X 和 Ryzen 5 9600X 处理器的发布日期推迟到 8 月 8 日,更高端的 Ryzen 9 9950X 和 Ryzen 9 9900X 将推迟到 8 月 15 日。

至于 Ryzen 9 9950X 和 Ryzen 9 9900X 上的字有没有印对,目前还没有定论。然而可以肯定的是,一旦更高端的型号出了岔子,肯定要比 Ryzen 7 系列和 5 系列推迟的时间更久。

对于用户来说,如果芯片延迟发布唯一的原因只是因为字印错了,而不是质量问题,反倒令人安心。对于 AMD 而言,他们似乎让自己陷入了一个尴尬的境地,如果芯片的印刷错误被证明是唯一的问题,那么 AMD 为何选择回避,不直接向公众坦白,而是发表了一个含糊其辞的声明,这种做法反而激起了外界对其芯片品质和检验流程的疑虑。

参考内容:

 https://www.tomshardware.com/pc-components/cpus/amd-ryzen-9000-launch-delay-due-to-typo-ryzen-7-9700x-ryzen-5-9600x-confirmed

 https://www.anandtech.com/show/21485/the-amd-ryzen-ai-hx-370-review

 https://www.youtube.com/watch?v=MCi8jgALPYA



#CFOR(Cross Fork Object Reference)

私有数据、删掉的内容可以永久访问,GitHub官方:故意设计的

最近,一个消息震惊开源社区:在 GitHub 上删掉的内容、私有存储库的数据都是可以永久访问的,而且这是官方故意设计的。

开源安全软件公司 Truffle Security 在一篇博客中详细描述了这个问题。

Truffle Security 引入了一个新术语:CFOR(Cross Fork Object Reference):当一个存储库 fork 可以访问另一个 fork 中的敏感数据(包括来自私有和已删除 fork 的数据)时,就会出现 CFOR 漏洞。

与不安全的直接对象引用类似,在 CFOR 中,用户提供提交(commit)哈希值就可以直接访问提交数据,否则这些数据是不可见的。

以下是 Truffle Security 博客原文内容。

访问已删除 fork 存储库的数据

想象如下工作流程:

  • 在 GitHub 上 fork 一个公共存储库;
  • 将代码提交到你的 fork 存储库中;
  • 你删除你的 fork 存储库。


51c大模型~合集13_AI_23

那么,你提交给 fork 的代码应该是不能访问了对吧,因为你把 fork 存储库删除了。然而它却永久可以访问,不受你控制。 

如下视频所示,fork 一个存储库,向其中提交数据,再删除 fork 存储库,那么可以通过原始存储库访问「已删除」的提交数据。


这种情况普遍存在。Truffle Security 调查了一家大型 AI 公司 3 个经常被 fork 的公共存储库,并从已删除的 fork 存储库中轻松找到了 40 个有效的 API 密钥。


51c大模型~合集13_AI_24

访问已删除存储库的数据

考虑如下工作流程:

  • 你在 GitHub 上有一个公共存储库;
  • 用户 fork 你的存储库;
  • 你在他们 fork 后提交数据,并且他们从不将其 fork 存储库与你的更新同步;
  • 你删除整个存储库。

51c大模型~合集13_AI_25

那么,用户 fork 你的存储库后你提交的代码仍然可以访问。

GitHub 将存储库和 fork 存储库储存在存储库网络中,原始「上游」存储库充当根节点。当已 fork 的公共「上游」存储库被「删除」时,GitHub 会将根节点角色重新分配给下游 fork 存储库之一。但是,来自「上游」存储库的所有提交仍然存在,并且可以通过任何 fork 存储库访问。


51c大模型~合集13_AI_26

2

这种情况不是个例,上周就发生了这样一件事情:

Truffle Security 向一家大型科技公司提交了一个 P1 漏洞,显示他们意外地提交了一名员工 GitHub 帐户的密钥,而该帐户对整个 GitHub 机构拥有重要访问权限。该公司立即删除了存储库,但由于该存储库已被 fork,因此仍然可以通过 fork 存储库访问包含敏感数据的提交,尽管 fork 存储库从未与原始「上游」存储库同步。

也就是说,只要存储库有至少一个 fork 存储库,那么提交到公共存储库的任何代码都可以永久访问。

访问私有存储库数据

考虑如下工作流程:

  • 你创建一个最终将公开的私有存储库;
  • 创建该存储库的私有内部版本(通过 fork),并为不打算公开的特征提交额外的代码;
  • 你将你的「上游」存储库公开,并将你的 fork 存储库保持私有。


那么,私有特征和相关代码则可供公众查看。从你创建工具的内部 fork 存储库到开源该工具之间提交的任何代码,这些提交都可以通过公共存储库访问。

在你将「上游」存储库公开后,对你的私有 fork 存储库所做的任何提交都是不可见的。这是因为更改私有「上游」存储库的可见性会导致两个存储库网络:一个用于私有版本,一个用于公开版本。


51c大模型~合集13_AI_27

不幸的是,该工作流程是用户和机构开发开源软件时最常用的方法之一。因此,机密数据可能会无意中暴露在 GitHub 公共存储库上。

如何访问数据?

GitHub 存储库网络中的破坏性操作(如上述 3 个场景)会从标准 GitHub UI 和正常 git 操作中删除提交数据的引用。但是,这些数据仍然存在并且可以访问(commit hash)。这是 CFOR 和 IDOR 漏洞之间的联系。


51c大模型~合集13_AI_28

commit hash 可以通过 GitHub 的 UI 进行暴力破解,特别是因为 git 协议允许在引用提交时使用短 SHA-1 值。短 SHA-1 值是避免与另一个 commit hash 发生冲突所需的最小字符数,绝对最小值为 4。所有 4 个字符 SHA-1 值的密钥空间为 65536 (16^4)。暴力破解所有可能的值可以相对容易地实现。


51c大模型~合集13_AI_29

51c大模型~合集13_AI_30

有趣的是,GitHub 公开了一个公共事件 API 端点。你还可以在由第三方管理的事件存档中查询 commit hash,并将过去十年的所有 GitHub 事件保存在 GitHub 之外,即使在存储库被删除之后也是如此。

GitHub 的规定

Truffle Security 通过 GitHub 的 VDP 计划将其发现提交给了 GitHub 官方。GitHub 回应道:「这是故意设计的」,并附上了说明文档。

说明文档:https://docs.github.com/en/pull-requests/collaborating-with-pull-requests/working-with-forks/what-happens-to-forks-when-a-repository-is-deleted-or-changes-visibility

Truffle Security 赞赏 GitHub 对其架构保持透明,但 Truffle Security 认为:普通用户将私有和公共存储库的分离视为安全边界,并且认为公共用户无法访问私有存储库中的任何数据。不幸的是,如上所述,情况并不总是如此。

Truffle Security 得出的结论是:只要一个 fork 存储库存在,对该存储库网络的任何提交(即「上游」存储库或「下游」fork 存储库上的提交)都将永久存在。

Truffle Security 还提出一种观点:安全修复公共 GitHub 存储库上泄露密钥的唯一方法是通过密钥轮换。

GitHub 的存储库架构存在这些设计缺陷。不幸的是,绝大多数 GitHub 用户永远不会理解存储库网络的实际工作原理,并且会因此而降低安全性。

原文链接:https://trufflesecurity.com/blog/anyone-can-access-deleted-and-private-repo-data-github



#Stretching Each Dollar

1890美元,就能从头训练一个还不错的12亿参数扩散模型, 只用1890美元、3700 万张图像,就能训练一个还不错的扩散模型。

现阶段,视觉生成模型擅长创建逼真的视觉内容,然而从头开始训练这些模型的成本和工作量仍然很高。比如 Stable Diffusion 2.1 花费了 200000 个 A100 GPU 小时。即使研究者使用最先进的方法,也需要在 8×H100 GPU 上训练一个多月的时间。

此外,训练大模型也对数据集提出了挑战,这些数据基本以亿为单位,同样给训练模型带来挑战。

高昂的训练成本和对数据集的要求为大规模扩散模型的开发造成了难以逾越的障碍。

现在,来自 Sony AI 等机构的研究者仅仅花了 1890 美元,就训练了一个不错的扩散模型, 具有 11.6 亿参数的稀疏 transformer。

  • 论文地址:https://arxiv.org/pdf/2407.15811
  • 论文标题:Stretching Each Dollar: Diffusion Training from Scratch on a Micro-Budget
  • 项目(即将发布):https://github.com/SonyResearch/micro_diffusion

具体而言,在这项工作中,作者通过开发一种低成本端到端的 pipeline 用于文本到图像扩散模型,使得训练成本比 SOTA 模型降低了一个数量级还多,同时还不需要访问数十亿张训练图像或专有数据集。

作者考虑了基于视觉 transformer 的潜在扩散模型进行文本到图像生成,主要原因是这种方式设计简单,并且应用广泛。为了降低计算成本,作者利用了 transformer 计算开销与输入序列大小(即每张图像的 patch 数量)的强依赖关系。

本文的主要目标是在训练过程中减少 transformer 处理每张图像的有效 patch 数。通过在 transformer 的输入层随机掩蔽(mask)掉部分 token,可以轻松实现这一目标。

然而,现有的掩蔽方法无法在不大幅降低性能的情况下将掩蔽率扩展到 50% 以上,特别是在高掩蔽率下,很大一部分输入 patch 完全不会被扩散 transformer 观察到。

为了减轻掩蔽造成的性能大幅下降,作者提出了一种延迟掩蔽(deferred masking)策略,其中所有 patch 都由轻量级 patch 混合器(patch-mixer)进行预处理,然后再传输到扩散 transformer。Patch 混合器包含扩散 transformer 中参数数量的一小部分。

与 naive 掩蔽方法相比,在 patch mixing 处理之后进行掩蔽允许未掩蔽的 patch 保留有关整个图像的语义信息,并能够在非常高的掩蔽率下可靠地训练扩散 transformer,同时与现有的最先进掩蔽相比不会产生额外的计算成本。 

作者还证明了在相同的计算预算下,延迟掩蔽策略比缩小模型规模(即减小模型大小)实现了更好的性能。最后,作者结合 Transformer 架构的最新进展,例如逐层缩放、使用 MoE 的稀疏 Transformer,以提高大规模训练的性能。

作者提出的低成本训练 pipeline 减少了实验开销。除了使用真实图像,作者还考虑在训练数据集中组合其他合成图像。组合数据集仅包含 3700 万张图像,比大多数现有的大型模型所需的数据量少得多。

在这个组合数据集上,作者以 1890 美元的成本训练了一个 11.6 亿参数的稀疏 transformer,并在 COCO 数据集上的零样本生成中实现了 12.7 FID。

值得注意的是,本文训练的模型实现了具有竞争力的 FID 和高质量生成,同时成本仅为 stable diffusion 模型的 1/118 ,是目前最先进的方法(成本为 28,400 美元)的 1/15。

51c大模型~合集13_AI_31

方法介绍

为了大幅降低计算成本,patch 掩蔽要求在输入主干 transformer 之前丢弃大部分输入 patch,从而使 transformer 无法获得被掩蔽 patch 的信息。高掩蔽率(例如 75% 的掩蔽率)会显著降低 transformer 的整体性能。即使使用 MaskDiT,也只能观察到它比 naive 掩蔽有微弱的改善,因为这种方法也会在输入层本身丢弃大部分图像 patch。

延迟掩蔽,保留所有 patch 的语义信息

由于高掩蔽率会去除图像中大部分有价值的学习信号,作者不禁要问,是否有必要在输入层进行掩蔽?只要计算成本不变,这就只是一种设计选择,而不是根本限制。事实上,作者发现了一种明显更好的掩蔽策略,其成本与现有的 MaskDiT 方法几乎相同。由于 patch 来自扩散 Transformer 中的非重叠图像区域,每个 patch 嵌入都不会嵌入图像中其他 patch 的任何信息。因此,作者的目标是在掩蔽之前对 patch 嵌入进行预处理,使未被掩蔽的 patch 能够嵌入整个图像的信息。他们将预处理模块称为 patch-mixer。

使用 patch-mixer 训练扩散 transformer

作者认为,patch-mixer 是任何一种能够融合单个 patch 嵌入的神经架构。在 transformer 模型中,这一目标自然可以通过注意力层和前馈层的组合来实现。因此,作者使用一个仅由几个层组成的轻量级 transformer 作为 patch-mixer。输入序列 token 经 patch-mixer 处理后,他们将对其进行掩蔽(图 2e)。

51c大模型~合集13_AI_32

图 2:压缩 patch 序列以降低计算成本。由于扩散 transformer 的训练成本与序列大小(即 patch 数量)成正比,因此最好能在不降低性能的情况下缩减序列大小。这可以通过以下方法实现:b) 使用更大的 patch;c) 随机简单(naive)掩蔽一部分 patch;或者 d) 使用 MaskDiT,该方法结合了 naive 掩蔽和额外的自动编码目标。作者发现这三种方法都会导致图像生成性能显著下降,尤其是在高掩蔽率的情况下。为了缓解这一问题,他们提出了一种直接的延迟掩蔽策略,即在 patch-mixer 处理完 patch 后再对其进行掩蔽。除了使用 patch-mixer 之外,他们的方法在所有方面都类似于 naive 掩蔽。与 MaskDiT 相比,他们的方法无需优化任何替代目标,计算成本几乎相同。

假定掩码为二进制掩码 m,作者使用以下损失函数来训练模型:    

51c大模型~合集13_AI_33

其中,M_ϕ 是 patch-mixer 模型,F_θ 是主干 transformer。请注意,与 MaskDiT 相比,本文提出的方法还简化了整体设计,不需要额外的损失函数,也不需要在训练过程中在两个损失之间进行相应的超参数调优。在推理过程中,该方法不掩蔽任何 patch。

未掩蔽微调

由于极高的掩蔽率会大大降低扩散模型学习图像全局结构的能力,并在序列大小上引入训练 - 测试分布偏移,因此作者考虑在掩蔽预训练后进行少量的未掩蔽微调。微调还可以减轻由于使用 patch 掩蔽而产生的任何生成瑕疵。因此,在以前的工作中,恢复因掩蔽而急剧下降的性能至关重要,尤其是在采样中使用无分类器引导时。然而,作者认为这并不是完全必要的,因为即使在掩蔽预训练中,他们的方法也能达到与基线未掩蔽预训练相当的性能。作者只在大规模训练中使用这种方法,以减轻由于高度 patch 掩蔽而产生的任何未知 - 未知生成瑕疵。

利用 MoE 和 layer-wise scaling 改进主干 transformer 架构

作者还利用 transformer 架构设计方面的创新,在计算限制条件下提高了模型的性能。

他们使用混合专家层,因为它们在不显著增加训练成本的情况下增加了模型的参数和表现力。他们使用基于专家选择路由的简化 MoE 层,每个专家决定路由给它的 token,因为它不需要任何额外的辅助损失函数来平衡专家间的负载。他们还考虑了 layer-wise scaling,该方法最近被证明在大型语言模型中优于典型 transformer。该方法线性增加 transformer 块的宽度,即注意力层和前馈层的隐藏层维度。因此,网络中较深的层比较早的层被分配了更多的参数。作者认为,由于视觉模型中的较深层往往能学习到更复杂的特征,因此在较深层使用更高的参数会带来更好的性能。作者在图 3 中描述了他们提出的扩散 Transformer 的整体架构。

51c大模型~合集13_AI_34

图 3:本文提出的扩散 transformer 的整体架构。作者在骨干 transformer 模型中加入了一个轻量级的 patch-mixer,它可以在输入图像中的所有 patch 被掩蔽之前对其进行处理。根据当前的研究成果,作者使用注意力层处理 caption 嵌入,然后再将其用于调节。他们使用正弦嵌入来表示时间步长。他们的模型只对未掩蔽的 patch 进行去噪处理,因此只对这些 patch 计算扩散损失(论文中的公式 3)。他们对主干 transformer 进行了修改,在单个层上使用了 layer-wise scaling,并在交替 transformer 块中使用了混合专家层。

实验

实验采用扩散 Transformer(DiT)两个变体 DiT-Tiny/2 和 DiT-Xl/2。

如图 4 所示,延迟掩蔽方法在多个指标中都实现了更好的性能。此外,随着掩蔽率的增加,性能差距会扩大。例如,在 75% 的掩蔽率下,naive 掩蔽会将 FID 得分降低到 16.5(越低越好),而本文方法可以达到 5.03,更接近没有掩蔽的 FID 得分 3.79。


51c大模型~合集13_AI_35

表 1 表明 layer-wise scaling 方法在扩散 transformer 的掩蔽训练中具有更好的拟合效果。

51c大模型~合集13_AI_36

比较不同的掩蔽策略。作者首先将本文方法与使用较大 patch 的策略进行比较。将 patch 大小从 2 增加到 4,相当于 75% 的 patch 掩蔽。与延迟掩蔽相比,其他方法表现不佳,分别仅达到 9.38、6.31 和 26.70 FID、Clip-FID 和 Clip-score。相比之下,延迟掩蔽分别达到 7.09、4.10 和 28.24 FID、Clip-FID 和 Clip-score。

51c大模型~合集13_AI_37

下图为延迟掩蔽 vs. 模型缩小以减少训练成本的比较。在掩蔽率达到 75% 之前,作者发现延迟掩蔽在至少三个指标中的两个方面优于网络缩小。但是,在极高的掩蔽率下,延迟掩蔽往往会实现较低的性能。这可能是因为在这些比率下掩蔽的信息损失太高导致的。

51c大模型~合集13_AI_38

表 5 提供了有关模型训练超参数的详细信息。训练过程分两个阶段。

51c大模型~合集13_AI_39

计算成本。表 2 提供了每个训练阶段的计算成本明细,包括训练 FLOP 和经济成本。第 1 阶段和第 2 阶段训练分别消耗了总计算成本的 56% 和 44%。模型在 8×H100 GPU 集群上的总时钟训练时间为 2.6 天,相当于在 8×A100 GPU 集群上为 6.6 天。

51c大模型~合集13_AI_40

了解更多结果,请参考原论文。



#AI生图玩法猛猛上新

日均tokens使用量超5000亿,AI生图玩法猛猛上新:豆包大模型为什么越来越「香」了?

2024 年的 AI 图像生成技术,又提升到了一个新高度。

技术的飞速迭代,让这一领域的商业化落地进入加速阶段。前有 Midjourney v6 史诗级更新,后有开源巨头 Stable Diffusion 3 独领风骚,而 DALL・E 3 背靠 ChatGPT 这棵「大树」,也收获了众多用户的关注。

当然了,在这条赛道上,来自国内的选手毫不逊色。

近日,国产大模型「顶流」—— 字节跳动豆包大模型,迎来一场集中放送:

在 2024 火山引擎 AI 创新巡展成都站活动上,豆包大模型团队公布了豆包大模型的最新进展,以及文生图模型、语音模型等垂直模型的新升级。

与此同时,豆包大模型家族的最新成员 ——「豆包・图生图模型」正式面世,一口气上新了 50 多项玩法。

作为国产大模型中的实力之作,豆包大模型在今年 5 月通过火山引擎正式对外提供服务。尽管入场时间不是最早,但今天的豆包大模型已经是国内使用量最大、应用场景最丰富的大模型之一。

这场活动中,火山引擎还透露了一个数字:截至 2024 年 7 月,豆包大模型的日均 tokens 使用量已经超过 5000 亿。

与此同时,豆包大模型的技术实力在短时间内也经历了多次迭代。在多个公开评测集以及专业的第三方评测中,豆包通用模型 pro 均表现出众,是得分最高的国产大模型。

至于豆包大模型的「功力」究竟练到了哪一层?我们不妨体验一把再下结论。

国产 AI 猛猛上新

豆包大模型为什么能俘获用户的心?

我们就从刚刚更新的图像生成方面来考验一下豆包大模型。对 AIGC 应用接触比较多的用户可能都有一个感受:AI 图像生成类产品越来越卷,彼此之间也越来越难拉开差距。

这种直观感受的变化,几乎能完全对应上底层技术的演进节点。与一些早期 GAN 模型的生成水准相比,如今的图像生成质量已经让大部分人觉得「真假难辨」。在这个过程中,学界和业界对图像生成质量的评估维度也发生了巨大变化:像 FID Score 这样的指标已经不足以全面反映模型能力,人类评估成为了评估图像生成质量的黄金标准。尽管经济和时间成本更高,但这种方式可以提供更加细微且可解释的感知反馈。

以「文生图」方向为例,现阶段的目标可以总结为对综合维度的全面提升,具体可拆分为图像美感、图文一致性、内容创造、复杂度适应性四个维度。在这几方面,豆包・文生图都达到了业界较高水准。

在用户感受最强烈的「图文匹配」维度上,豆包・文生图模型不断进化,比如很好地理解多数量主体、主客体关系、人物构造和空间构造等信息:

Prompt:古代日本鬼机甲、中国朋克、太空歌剧、科幻小说、古代未来主义、神秘、明亮、不对称密集构图、32k 超高清、电影光、气氛光、电影、柔和的调色板、超现实、自由度、自然体积光。

而在「画面效果美感」层面,豆包・文生图模型非常善于从光影明暗、氛围色彩和人物美感方面进行画面质感提升:

Prompt:OC 渲染,3D 设计,长发小女孩,人脸朝着镜头,中心构图,帽子上长满鲜花,轮廓清晰,面部细节放大,帽子细节放大,画质高清,超清画质,深景深,背景是花海

此外,作为国产 AI 精品之作,面对中国人物、物品、朝代、美食、艺术风格等元素,豆包・文生图模型也展现出了更加深刻的理解力。

Prompt:超写实画风,唐代,长安,元宵节夜市,唐代侍女,灯火辉煌,细节完美,特写,热闹非凡,超高清,4K

Prompt:国风水墨绘画,点彩、肌理磨砂、陈家泠、大面留白的构图,高清16k故宫远景,雪景、流畅建筑结构,层次,白色主色,淡雅

基于双语大模型文本编码器,豆包・文生图模型对英文 Pormpt 的理解同样精准:

Prompt:butterfly candle, in the style of y2k aesthetic, pop-culture-infused, jewelry by painters and sculptors, text and emoji installations, money themed, playful animation, humble charm

Prompt:World of Warcraft, outdoor scene, green grassland with a river flowing through it, rocky cliffside with a cave entrance, a small wooden bridge over the waterway, lush trees and wildflowers on both sides of the stream, white clouds in a blue sky, fantasy landscape concept art style, game illustration design, concept design for world building, concept art in the style of game illustration design, 3D

不久之后,豆包・文生图模型还将升级到 2.0 版本。豆包视觉团队表示,新版本将比当前模型的生成效果有 40% 的提升,对比当前版本,图文一致性和美感会有大幅提升。

与文生图略有不同,在图像美感和结构等因素之外,图生图更算是一种应用模型,质量评估更加关注「一致性」和「相似度」两个维度。豆包・图生图模型的能力涵盖「AI 写真」、「图像风格化」、「扩图 / 局部重绘」三个主要方向,共提供了 50 余种风格玩法。

「AI 写真」算是以图生图方向中使用频率非常高的一种玩法,豆包・图生图模型的一大亮点是高度还原人物特征,能够精准捕捉轮廓、表情、姿态等多维特征,轻松生成定制化写真:

豆包・图生图模型还能具备优秀的图片扩展、局部重绘和涂抹能力,在逻辑合理的前提下,还能充满想象力。

比如在下方的任务中,用户想要实现自然的局部消除,豆包・图生图模型生成结果也做到了平滑过渡:

对于只想局部进行重绘的需求,豆包・图生图模型能够精准修改图像局部内容,无缝融合原有画面。比如将粉色外套改为蓝色牛仔外套:

面对下方的人物照背景扩图任务,豆包・图生图模型给出的结果,实现了良好的景观结构及光线保持:

豆包大模型,如何跻身图像生成赛道上游?

感受完这一波 Demo,我们好奇:是从什么时候开始,豆包大模型在图像生成方面有了这么深厚的实力?

两年前,Stable Diffusion 的横空出世,宣告了 AIGC 时代的正式开启。随后,AI 社区形成了巨大的迭代效应,基于各个版本 Stable Diffusion 开源模型的 AI 图像生成工具被迅速创造出来,不断刷新生成质量和速度的上限。

不到半年后,DiT 架构的提出,验证了 Scaling Law 在图像生成领域同样成立。越来越多的研究选择用 Transformer 替代传统的 U-Net,让扩散模型继承了其他领域的最佳实践和训练方法,增强了图像生成模型的可扩展性、鲁棒性和效率,还提高了对文字提示的理解能力和图像生成质量,有效增加了定制化、生成内容可控性方面的优势。

早在豆包大模型诞生前的几年,字节跳动就开始关注图像生成相关技术,近两年更是持续增加这方面的研发投入,保持着创新成果的高频产出。这也是为什么豆包大模型一经面世,就可以惊艳所有人。

Scaling Law 被验证带来的另外一个启示是,算力基础提升、训练数据增加、数据质量改善成为了图像生成模型能力提升的关键因素。在这些方面,字节跳动自研的豆包大模型在图像生成能力进化上具备天然优势。

但 Stable Diffusion 模型的训练和推理仍然是一个复杂且耗时的过程,比如,扩散模型在推理过程中天然存在的多步数迭代去噪特性会导致较高的计算成本。如何在提升生成质量的同时加快速度,成为了图像生成领域的关键问题。

豆包视觉团队提出了多项创新成果,从不同的维度尝试解决这个难题,并将这些成果开放给了 AI 社区。

一项代表性的成果是 Hyber-SD,这是一种新颖的扩散模型蒸馏框架,在压缩去噪步数的同时可保持接近无损的性能,在 SDXL 和 SD1.5 两种架构上都能在 1 到 8 步内生成中实现 SOTA 级别的图像生成。(https://huggingface.co/ByteDance/Hyper-SD)

另外一项研究 SDXL- Lightning则通过一种名为「渐进式对抗蒸馏」(Progressive Adversarial Distillation)的创新技术,实现了生成质量和生成速度的双重提升:仅需短短 2 步或 4 步,模型就能生成极高质量和分辨率的图像,将计算和时间成本降低了十倍,而且能在实现更高分辨率和更佳细节的同时保持良好的多样性和图文匹配度。(https://huggingface.co/ByteDance/SDXL-Lightning)

同时,豆包视觉团队还提出了一个利用反馈学习全面增强扩散模型的统一框架 UniFL。通过整合感知、解耦和对抗性反馈学习,这个框架不仅在生成质量和推理加速方面表现优秀,还在 LoRA、ControlNet、AnimateDiff 等各类下游任务中展现出了很好的泛化能力。(https://arxiv.org/pdf/2404.05595)

众所周知,Stable Diffusion 的核心功能是从文本生成图像,而 ControlNet、Adapter 等技术的融合,能够在保留部分图像信息的同时添加一些额外控制条件,引导生成与给定参考图像「相似」的结果。这些技术的融合演变出了我们今天见到的各项「图生图」功能,并进一步消除了 AI 图像生成技术的商用门槛。

在这方面,豆包视觉团队同样有深厚技术积累,仅今年就在国际计算机视觉顶会 CVPR 中发表了十多篇论文,提出了数十项相关专利。

针对图像 Inpaint/Outpaint 问题,豆包视觉团队提出了 ByteEdit。关键创新包括三点:首先,增大训练数据量级,兼容自然图像输入、mask 输入、无 prompt 输入,让模型「看到」更多泛化场景;其次,引入一致性奖励模型,重点提升生成结果一致性,让希望填充的区域和非填充区域更加的和谐;然后,引入渐进式的分阶段对抗训练策略,在不损失模型性能条件下实现速度的提升。(https://byte-edit.github.io)

针对 ID 保持,豆包视觉团队提出了 PuLID,通过引入一个新的训练分支,在训练中加入了对比对齐损失和更精确的 ID 损失,让 ID 适配器学习如何在注入的 ID 信息的同时,减少对原模型行为的破坏,从而在保证较高 ID 相似度的同时,兼顾编辑能力、风格化能力以及画面质量等方面的效果。(https://www.hub.com/ToTheBeginning/PuLID)

针对 IP 保持,豆包视觉团队提出了一种「参考图 IP - 文本」解耦控制的通用场景 IP 定制化生成方法 RealCustom,对于任意开放域物体或人物 IP 均可实现无需微调的实时定制化生成。(https://corleone-huang.github.io/realcustom/)

「更强模型、更低价格、更易落地」

短短两年内,AI 在图像生成上的持续进步,打破了长期存在的专业门槛,让任何人都可以创造出高质量的视觉作品,带来了一场前所未有的革命。豆包大模型的图像生成能力,已经为字节跳动旗下多个应用提供技术支持,包括抖音、剪映、醒图、即梦、豆包、星绘。对于大众来说,AIGC 已经实实在在地改变了生活。

但从企业用户的角度来说,这些最前沿的技术仍然存在一些应用壁垒,涉及数据、人才、算力等多方面因素。对于各行各业的用户来说,即使有了强大的开源模型可供选择,也需要解决计算资源、专业知识、模型微调等方面的挑战。

成本的全方位降低,才是推动大模型真正实现价值创造的关键因素。

自发布以来,豆包大模型正在通过火山引擎源源不断地向千行百业输出技术能力,推动大模型技术实现更广泛深入的行业落地。

目前,包括豆包・文生图模型和豆包・图生图模型在内,豆包大模型家族的成员数量已经达到了 10 个。这些针对应用场景细分的模型都会上线火山方舟,开放给火山引擎的众多企业客户合作共创。

飞速增长的使用量,也在帮助豆包大模型持续打磨自身能力。自 2024 年 5 月 15 日豆包大模型发布至今,短短两个月内,平均每家企业客户的日均 tokens 使用量已经增长了 22 倍。

豆包大模型家族「集体照」。

同时,火山引擎提供了更丰富的核心插件、更强大的系统性能以及更优质的平台体验,企业可根据自身业务场景需求灵活选择、快速落地。比如,依靠豆包・图生图模型,客户利用几张图片即可训练专属的数字分身。

在很多情况下,价格仍然是客户的首要考虑因素。火山引擎正是率先将最强模型版本降价的行业先行者,以更强模型、更低价格满足企业复杂业务场景需求,真正推动大模型落地。

凭借充沛 GPU 算力资源池,并通过潮汐、混部等方式,实现资源的高利用率和极致降低成本,即使是在大模型价格战越来越激烈的未来,火山引擎所提供的大模型服务仍然保持着绝对吸引力。

中国公司正在开启大模型竞争的下一章

轰轰烈烈的百模大战之后,海内外的大模型快速涌现。尽管有 OpenAI 等一系列强大的竞争对手,但豆包大模型还是杀出了自己的一条路。

过去一段时间,人们喜欢谈论国产大模型技术的追赶。从「追赶」到「媲美」,很多中国团队只用了一年、半年时间,这其中也包括豆包大模型团队。

短时间内跻身图像生成这条赛道的上游,与豆包大模型团队在研发和人才方面的投入密不可分。近几年,越来越多顶尖大模型人才的加入,纯粹极致的技术研究氛围,大规模的研发资源投入,都是成就豆包这一国产大模型代表作的重要因素。

特别是在应用场景优势的加持下,当大模型被「用起来」的这天,人们看到了中国大模型走进千行百业时的充足「后劲」。

可以期待的是,大模型这条赛道的竞争正在开启新篇章,而在新的章节里,国产大模型将有机会书写更加浓墨重彩的一笔。