在人工智能飞速发展的时代,各种模型不断涌现,推动着技术的进步和应用的拓展。从语言模型到图像生成模型,不同类型的模型在各自领域发挥着关键作用。接下来,让我们一同深入了解当下备受瞩目的几大模型系列。
一、LLaMA 系列
大语言模型领域中,LLaMA 模型凭借其独特优势崭露头角。它由 Meta AI 研发,旨在以较低的资源消耗实现强大的语言处理能力。LLaMA 模型的名称来源于 “Large Language Model Meta AI” ,“Large Language Model” 表明它是一个大型语言模型,强调其在处理自然语言方面的强大能力和大规模的模型架构,“Meta AI” 则明确了该模型是由 Meta 公司的 AI 团队开发的。同时,“llama” 在英文中意为 “美洲大羊驼”,所以社区也将这个系列的模型昵称为 “羊驼系模型”。其各版本信息如下:
LLaMA
-
推出时间:2023 年 2 月
-
参数量:基础版本参数量从 70 亿到 650 亿不等,包括 7B、13B、33B 和 65B 四个版本。
-
性能:在自然语言处理任务中展现出一定的能力,能完成文本生成、知识问答、翻译等任务,且在多语言处理上有不错的表现,支持超过 20 种语言。
-
亮点:模型架构基于 Transformer,采用了分组查询注意力(GQA)等技术,有效提升了训练效率和性能。并且,它是开源模型,这使得研究人员和开发者能够基于其进行二次开发和优化,推动了相关技术的发展和创新。
-
应用场景:适用于多种场景,如智能客服、内容创作辅助、智能写作等,帮助企业和个人提升语言处理效率和质量。
-
论文:LLaMA: Open and Efficient Foundation Language Models,该论文详细阐述了 LLaMA 模型的架构、训练方法以及在多个自然语言处理任务上的实验结果,为后续研究和应用提供了重要参考。
LLaMA 2
-
推出时间:2023 年 7 月
-
参数量:分为 7B、13B、70B 三个版本。
-
性能:相比初代,在性能上有显著提升。在复杂语言理解和生成任务中表现出色,如在对话交互中,能够更好地理解上下文并生成更符合语境的回复;在知识推理任务中,准确性也有所提高。
-
亮点:经过优化的预训练和微调过程,使其对人类意图的理解更加准确。同时,它在安全性和合规性方面进行了改进,减少了有害和不适当内容的生成。并且,它提供了商业使用许可,降低了企业使用的门槛。
-
应用场景:广泛应用于聊天机器人、智能助手、智能写作工具等领域,为用户提供更加智能、安全和合规的服务。
-
论文:LLaMA-2: Open Foundation and Fine-Tuned Chat Models,论文介绍了 LLaMA 2 在模型架构改进、训练优化以及安全性增强等方面的技术细节,为开发者深入了解和应用该模型提供了全面指导。
二、PaLM 系列
说完 LLaMA,我们将目光投向谷歌的 PaLM 系列模型。PaLM 系列基于谷歌自研的 Pathways 系统,在自然语言处理领域展现出强大实力。
PaLM
-
推出时间:2022 年 4 月
-
参数量:5400 亿
-
性能:在多种自然语言处理任务中表现出色,文本生成时能产出连贯、逻辑清晰且内容丰富的文本;在问答系统里能准确理解问题并给出合理回答,在一些开放域问答基准测试中超越许多同期模型。
-
亮点:借助 Pathways 系统训练,实现高效的模型扩展和训练优化;基于 Transformer 架构,能更好处理自然语言序列特性,捕捉长距离依赖关系。
PaLM 2
-
推出时间:2023 年 5 月(在 2023 谷歌 I/O 大会上宣布推出并发布预览版本)
-
参数量:3400 亿
-
性能:
-
多语言能力:在超 100 种语言的多语言文本上训练,语言理解、生成和翻译能力大幅提升,通过日语 A 级、法语 C1 级等 “精通” 级别的高级语言能力考试。
-
数学与推理:数据集中包含海量数学表达式,在 MATH、GSM8K 和 MGSM 等基准评估中部分结果超越 GPT-4,能解决复杂数学问题并制作图表。
-
编程能力:支持 20 种编程语言,涵盖常用和特定领域小众语言,在代码生成、理解和编程辅助方面作用显著。
-
-
亮点:
-
模型版本多样化:有 Gecko、Otter、Bison 和 Unicorn 四个版本,轻量级 Gecko 模型可在移动设备运行,离线每秒处理 20 个 token,方便不同场景部署。
-
训练优化:训练数据量达 3.6 万亿个 token,是前代近 5 倍,模型完成复杂任务更高效,对语言多样性和复杂性理解更深刻。
-
专业领域拓展:基于 PaLM 2 推出 Med-PaLM 2(医学领域,能回答医学问题,在美国医疗执照考试达专家水平,探索多模态能力)和 Sec-PaLM 2(网络安全维护,分析解释潜在恶意脚本行为,检测威胁)。
-
-
论文:PaLM 2 技术报告
PaLM-E
-
推出时间:当地时间 2023 年 3 月 7 日
-
参数量:5620 亿
-
性能:PaLM-E 是 PaLM-540B 语言模型与 ViT-22B 视觉 Transformer 模型的结合体,可在视觉、文本等多模态输入下做出具体决策并执行复杂任务,如对带手写数字图像执行数学运算,借助移动机器人完成 “把抽屉里的米饼拿过来” 等指令,且行动计划能根据环境变化调整。
-
亮点:具备多模态思维链推理、单图像提示训练的多图像推理等涌现能力,无需预先处理场景和人工预处理注释数据,即可实现更自主的机器人控制。
-
论文:PaLM-E: An Embodied Multimodal Language Model,发表于 ICML 2023 ,论文作者包括 Danny Driess、Fei Xia 等来自 Robotics at Google 和 TU Berlin 等机构的研究人员 。该论文阐述了 PaLM-E 将真实世界的连续传感器模态纳入语言模型,建立词语与感知联系的方法,以及在多模态推理和具身决策任务中的表现与优势。
-
研究方向:探索在家庭自动化、工业机器人等现实场景的更多应用,激发多模态推理和具身 AI 研究。
三、OpenAI 系列
OpenAI 作为人工智能领域的重要参与者,其推出的模型在行业中产生了深远影响。从早期的 GPT-1 到如今的 GPT-4 Turbo,每一次迭代都推动着语言模型技术的发展。
GPT-1
-
推出时间:2017 年 6 月
-
参数量:1.17 亿
-
性能:作为 OpenAI 的首个生成式预训练模型,开创了 NLP 领域预训练 - 微调的先河。它在语言生成、文本分类、问答等基础 NLP 任务上展示出了一定的能力,虽然在性能上与后续模型相比有差距,但为后续模型的发展奠定了理论和实践基础。
-
亮点:基于 Transformer 架构的 Decoder 部分构建,首次引入了生成式预训练的概念,先在大规模无监督数据上进行预训练,再针对特定任务进行微调,这种方式显著提高了模型在下游任务上的表现。
-
论文:Improving Language Understanding by Generative Pre-Training
GPT-2
-
推出时间:2019 年 2 月
-
参数量:15 亿(基础版本),最大版本达 1.5B
-
性能:相较于 GPT-1,GPT-2 在语言生成能力上有了质的飞跃,能够生成更加连贯、自然且富有逻辑性的文本。它在零样本学习场景下表现出色,即在没有针对特定任务进行微调的情况下,也能对多种自然语言处理任务做出较好的响应。
-
亮点:训练数据量大幅增加,达到 800 万网页的文本数据,模型规模也显著扩大。具备更强的泛化能力,展示了语言模型在少样本或无样本学习下的潜力,引发了对语言模型能力边界的广泛探讨。
GPT-3
-
推出时间:2020 年 5 月
-
参数量:1750 亿
-
性能:一经推出便引起了广泛关注,在各类自然语言处理任务中展现出惊人的能力。它可以完成复杂的文本生成、翻译、问答、代码编写等任务,甚至在一些任务上超越了人类的表现。例如,在生成创意写作、技术文档、对话回复等方面,GPT-3 都能生成高质量的内容。
-
亮点:超大规模的参数数量使其拥有强大的知识储备和语言理解能力。支持少样本学习、零样本学习和上下文学习,通过在提示中提供少量示例或简单指令,就能引导模型完成各种复杂任务,大大拓展了模型的应用范围。
ChatGPT
-
推出时间:2022 年 11 月
-
参数量:基于 GPT-3.5 架构,未公开具体参数量,推测与 GPT-3.5 类似(GPT-3.5 参数量可能为 1750 亿)
-
性能:专注于对话交互,能够与用户进行自然流畅的对话,理解用户意图并提供准确、有用的回答。在多轮对话中,它能够保持上下文的连贯性,理解用户的隐含需求,在日常对话、知识问答、任务协助等场景中表现出色。
-
亮点:采用了人类反馈强化学习(RLHF)技术,通过人类标注者对模型生成的回复进行打分和排序,模型基于这些反馈进行优化,使得生成的回复更加符合人类的语言习惯和价值观,提高了对话的质量和安全性。
-
论文:暂未发表专门针对 ChatGPT 的学术论文,其技术细节可参考 OpenAI 关于 RLHF 的相关研究。
GPT-4
-
推出时间:2023 年 3 月
-
参数量:未公开
-
性能:在语言理解、生成、推理和解决复杂问题等方面相较于之前的模型有了显著提升。它能够处理更复杂的任务,如复杂的数学推理、高级编程、创意写作等。在各类标准化测试中,如 SAT、GRE 等,GPT-4 的表现优于大多数人类考生。
-
亮点:支持多模态输入(虽然文本输入仍是主要方式),具备更强的逻辑推理和常识推理能力,能够理解和处理模糊、隐喻等复杂的语言表达。在安全性和对齐性方面进一步优化,减少了有害和不适当内容的生成。
-
论文:Sparks of Artificial General Intelligence: Early experiments with GPT-4
GPT-4 Turbo
-
推出时间:2024 年 11 月
-
参数量:未公开
-
性能:拥有更长的上下文窗口,支持 128k 上下文,能处理长达 300 多页的文本,在长文本理解和处理上表现出色。在推理、编码、创意写作等任务上性能进一步提升,回答速度更快,能够更高效地完成各种复杂任务。
-
亮点:更新了知识到 2024 年 4 月,能更好地处理时效性问题。在多模态能力上可能有所增强(官方未详细披露),并针对开发者优化了调用成本,使其更具实用性和性价比。
-
论文:暂无独立公开论文,可关注 OpenAI 官方渠道获取相关信息。
o1 系列
-
推出时间:2024 年 9 月 13 日(o1-preview 和 o1-mini 发布),2024 年 12 月 6 日(o1 完整版发布)
-
参数量:未公开
-
性能:
-
o1-preview 和 o1 完整版:在推理数学、编程及科学问题的能力上取得显著进步。在编程竞赛问题(Codeforces)中排名第 89 百分位 ,在美国数学奥林匹克(AIME)的资格赛中位列美国前 500 名,在物理、生物和化学问题的基准测试(GPQA)上超越人类博士水平的准确率,在国际奥林匹克数学竞赛(IMO)中解决了 83% 的问题。相比预览版,完整版 o1 响应速度更快,疑难问题的重大错误减少 34%,还能分析和解释图像上传。
-
o1-mini:速度更快,比 o1-preview 便宜 80%,在编码任务上的能力与 o1-preview 相当,在生成和调试复杂代码方面表现出色。
-
-
亮点:
-
训练方式:采用大规模强化学习算法 ,通过思维链(chain of thought)模式训练,学会优化思维过程、识别和纠正错误、将复杂问题分解成简单部分并尝试不同策略。随着推理时间增加,表现越来越好。
-
安全措施:开发新的安全培训方法,利用模型推理能力遵守安全规则,在严格越狱测试中,o1-preview 得分 84 分(满分 100 ),表现出高抵抗力。
-
-
应用场景:适用于科学研究(如医疗保健研究人员注释细胞测序数据、物理学家生成量子光学公式)、软件开发(开发者构建和执行多步骤工作流程)、教育和技术支持(为学生和专业人士提供详细解释和指导)等需要深度推理的任务。
o3 及 o3-mini
-
推出时间:2024 年 12 月 20 日(发布),当地时间 2025 年 1 月 31 日(o3-mini 正式推出)
-
参数量:未公开
-
性能:
- o3-mini:在编码评估方面性能提升显著,在 CodeForces 的评估中,随着思考时间增加,表现不断提升并逐渐超越 o1Mini 模型;在中位思考时间下,性能优于 o1 模型,能以更低成本提供相当甚至更好的代码性能;在数学能力测试中,在 2024 年数据集上表现出色,低模型性能与 o1Mini 相当,中位数模型比 o1 性能更好;处理困难数据集(如 GPQA)时能展现优势,实现接近即时响应。
-
亮点:
- 功能特性:支持函数调用、结构化输出、开发者消息等功能,与 O1 模型相当;内置函数调用、结构化输出和开发者消息等专业功能,开箱即用可投入生产环境;开发者可根据场景需求选择低、中、高三级推理强度 。
-
命名由来:命名时为避免与英国电信运营商 O2 商标冲突,跳过 “o2” 直接命名为 “o3” 。
四、Gemini 系列
而谷歌的 Gemini 系列模型同样备受瞩目,它在自然语言处理和多模态交互等领域展现出独特的优势。
Gemini 的读音为:英 /ˈdʒemɪnaɪ/;美 /ˈdʒemɪnaɪ/ 。这个名字蕴含着丰富的寓意。在拉丁语中,Gemini 意为 “双胞胎” ,在天文学里是双子座的英文名称,与希腊神话中双胞胎卡斯托耳(Castor)和波吕丢刻斯(Pollux)相关,双子座最亮的两颗星便以他们名字命名。这一含义暗示了 Gemini AI 模型的多模态能力,如同双胞胎一般,能处理和整合不同类型的信息,也象征着谷歌在 AI 领域不同能力的融合。2023 年 4 月,DeepMind 和谷歌研究的 Brain 团队合并组成 Google DeepMind,Gemini 计划是新团队执行的首个任务,其 “双胞胎” 寓意代表了原来的两个团队,象征着团队的团结协作,共同推动谷歌 AI 发展。此外,美国宇航局(NASA)在 1965 - 1968 年实施的 “双子座” 计划(Project Gemini),其双人航天器为阿波罗登月计划测试了设备和技术,意义重大。谷歌将 AI 模型命名为 Gemini,把训练大型语言模型的努力与发射火箭的精神相呼应,体现出该项目的雄心壮志,期望 Gemini 模型在 AI 领域实现重大突破。
Gemini 1.0
-
推出时间:2023 年 12 月 6 日
-
参数量:未公开,分 Gemini Ultra、Gemini Pro 和 Gemini Nano 三个不同规格。
-
性能:
-
Gemini Ultra:能力最强,在各种高度复杂任务中表现卓越,如复杂推理和多模态任务。在 MMLU(大规模多任务语言理解数据集)中的得分率高达 90.0% ,首次超越人类专家,该数据集包含数学、物理、历史、法律、医学和伦理等 57 个科目。
-
Gemini Pro:适用于多任务,在成本和延迟方面进行了性能优化,可在广泛任务范围内提供良好性能,具备推理功能和广泛多模态能力。
-
Gemini Nano:最高效,用于特定任务和移动设备,训练了两个版本,参数分别为 1.8B(Nano-1)和 3.25B(Nano-2),分别针对低内存和高内存器件,通过从更大的 Gemini 模型中提取来训练,采用 4 位量化部署。搭载 Gemini Nano 的 Pixel 8 Pro 支持 “录音机” 应用中的 “总结” 等新功能,并在 Gboard 中推出 “智能回复” 功能。
-
-
亮点:
-
多模态能力:采用 Transformer 架构和高效的 Attention 机制,能同时识别和理解文本、图像、音频等,在图像基准方面,Gemini Ultra 无需对象字符识别(OCR)系统的帮助即可从图像中提取文本;视频理解方面,通过将视频编码为大语境窗口中的一系列帧完成,视频帧或图形可自然地与文本或音频交织。
-
编码能力:可以理解、解释和生成流行的编程语言(如 Python、Java、C++ 和 Go)的高质量代码,能够跨语言工作并推理复杂信息,如 AlphaCode 团队构建的 AlphaCode2,将 Gemini 的推理能力与搜索和工具使用相结合,在 Codeforces 竞争性编程平台上,AlphaCode 2 在进入者中排名前 15%。
-
安全功能:拥有全面的安全性评估,包括偏差和病毒等。谷歌应用对抗性测试技术,依据 Google AI 原则和严格的产品安全政策,增加新保护措施,全面考虑潜在风险,并在开发的每个阶段进行测试和风险降低;与外部专家合作进行压力测试来确保内容安全,建立专门的安全分类器来识别和过滤有害内容。
-
-
应用场景:Gemini Ultra 用于对性能和推理能力要求极高的复杂任务场景;Gemini Pro 适用于普通多任务处理和开发应用;Gemini Nano 用于移动设备和特定轻量级任务。
-
论文:目前暂无专门针对 Gemini 1.0 的学术论文,但可参考谷歌关于多模态大模型、Transformer 架构优化等相关研究论文,了解其技术基础。
Gemini 1.5
-
推出时间:2024 年 2 月 15 日
-
参数量:未公开,主要有 Gemini 1.5 Pro 等版本。
-
性能:Gemini 1.5 Pro 可把稳定处理上下文的上限扩大至 100 万 tokens,在 Kalamang 语翻译至英语的测试中表现出色。2024 年 5 月 15 日升级到 200 万 tokens,并全面支持 Workspace ,还推出基于 Gemini 1.5 Pro 的 Gemini Advanced,升级后的 Gemini Advanced 可以处理 “多个大型文档,总计最多 1500 页,或汇总 100 封电子邮件,同时支持 35 多种语言和 150 多个国家及地区。
-
亮点:上下文处理能力大幅提升,在语言翻译等任务中表现优异,功能更全面,支持更多应用场景和语言地区。
-
应用场景:适用于需要处理超长文本、多语言交互以及大规模文档处理的场景,如跨国企业文档处理、多语言内容创作等。
-
论文:Gemini 1.5 Pro 技术报告(假设链接,实际可关注谷歌官方发布渠道获取),在该技术报告中,谷歌团队提到 Gemini 1.5 Pro 是一种计算效率极高的多模态专家混合模型,能够从包括多个长文档和数小时的视频和音频在内的数百万个 token 的上下文中调用细粒度信息并进行推理。其在各种模式的长语境检索任务中实现了接近完美的召回率,提高了长文档质量保证、长视频质量保证和长语境 ASR 的先进水平,并在一系列广泛的基准测试中达到或超过了 Gemini 1.0 Ultra 的先进水平。
Gemini 1.5 Flash
-
推出时间:2024 年 5 月 15 日
-
参数量:未公开
-
性能:轻量化小模型,在综合测试中排名第 9,超越 Llama-3-70b,接近 GPT-4,中文能力表现惊艳。
-
亮点:模型轻量化,在保持一定性能的同时,可能在运行效率、资源占用等方面有优势,且在中文测试中表现突出。
-
应用场景:适用于对模型性能要求不是顶级,但对资源消耗敏感,且有中文处理需求的场景,如移动端简单应用、轻量级文本处理工具等。
-
论文:暂无独立论文,可结合 Gemini 整体技术体系相关资料及谷歌关于模型轻量化、多模态优化等研究进行了解。
Gemini 2.0
-
推出时间:2025 年 2 月 6 日(发布 Gemini2.0Flash、Gemini2.0Flash-Lite 及旗舰模型 Gemini2.0Pro 实验版本 )
-
参数量:未公开
-
性能:Gemini2.0Pro 支持 200 万 tokens 上下文窗口,创下了该公司模型编码性能新纪录。
-
亮点:进一步提升上下文窗口支持能力,在编码性能上有新突破,可能在代码相关的任务处理上表现更出色。
-
应用场景:在软件开发、代码分析、编程教育等对代码处理和上下文理解要求高的领域有潜在应用价值。
-
论文:目前暂未发布,可关注谷歌官方后续动态,获取关于 Gemini 2.0 在架构改进、性能提升、新功能实现等方面的研究论文。
五、Claude 系列
在大语言模型的激烈竞争中,Claude 系列也凭借自身的特点占据了一席之地。它由美国人工智能公司 Anthropic 研发,致力于在自然语言处理和多模态交互领域为用户提供优质服务。
Claude 的读音为:英 /klɔːd/;美 /klɔːd/。这个名字主要是为了向图灵奖得主克劳德・香农(Claude Shannon)致敬。克劳德・香农作为信息论的奠基人,在信息科学领域做出了开创性贡献,其理论为现代通信和计算机科学奠定了基础。他还发明了会玩迷宫的机械老鼠,是人工智能早期探索的重要人物,对后续人工智能的发展产生了深远影响。Anthropic 将旗下的大模型系列命名为 Claude,正是为了表达对这位先驱者的敬仰与缅怀。
Claude 3
-
推出时间:当地时间 2024 年 3 月 4 日
-
参数量:未公开,包含 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus 三个子模型。
-
性能:
-
Claude 3 Opus:最为强大,在本科水平的大规模多任务语言理解 (MMLU)、研究生级别的 Google 验证问答 (GPQA)、小学基础数学 (GSM8K) 等多项基准测试中超越了 GPT-4 和 Gemini 1.0 Ultra 。在处理复杂任务时表现出色,对长文的语境理解准确率超 99%,在 LSAT、MBE、数学竞赛等考试中展示出高智能水平。
-
Claude 3 Sonnet:在速度和计算效率上取得了较好的平衡,在部分基准测试中超越 GPT-4,能够为用户提供较为高效的服务。
-
Claude 3 Haiku:具备快速响应的优势,能满足对响应速度要求较高的场景。
-
-
亮点:
-
多模态能力:是多模态大模型,擅长分析、预测、细致内容创作、代码生成和多语言对话。在视觉处理方面,可以处理照片、图表、图形和技术图表等,也可处理例如 PDF、流程图或幻灯片等带有格式编码的材料。
-
长文本处理:可以归纳大约 15 万单词,三个模型在发布时都能接受最多 20 万字的文本,且拥有最多记忆超过 100 万个 token 的能力,其中 Opus 版本对于文本内容的记忆提取准确率超过 99%,在处理长文本方面能力突出。
-
安全性提升:在安全性方面有所进步,减少了不必要的拒绝回答情况,模型处理复杂问题的准确率直接翻倍,能够支持实时用户交流和数据提取任务。
-
-
应用场景:Claude 3 Opus 适用于对智能水平和复杂任务处理能力要求极高的场景,如科研辅助、复杂数据分析等;Claude 3 Sonnet 适用于普通多任务处理和开发应用,如智能客服、内容创作辅助等;Claude 3 Haiku 适用于对响应速度要求高的简单任务场景,如即时问答、简单文本生成等。
Claude 3.5 Sonnet
-
推出时间:当地时间 2024 年 6 月 21 日
-
参数量:未公开,属于中等尺寸模型,介于小型 Haiku 和高端 Opus 之间。
-
性能:在前代的基础上迭代升级,性能更快,在阅读、编码、数学和视觉等几个主要 AI 基准测试中,能力不仅超过了 Claude 3 Sonnet,还超越了 Anthropic 此前的旗舰模型 Claude 3 Opus。在研究生水平推理 (GPQA)、编码能力 (HumanEval) 、文本推理 (DROP) 等方面的成绩均好于 GPT-4o,但在数学问题解决能力上稍逊于后者。
-
亮点:
-
视觉能力提升:擅长解释和分析视觉数据,在大多数视觉基准测试中比 Claude 3 Opus 平均表现高出 10%,可以更准确地解释图表和图形,在带有扭曲和视觉伪像的这类 “不完美” 图像中,也能顺利完成文本转录任务。其功能包括视觉推理、图文融合、物体识别、视觉问答、基于图像的问题解决、艺术与设计分析、手写识别、视觉数据提取、图像转录文本等。
-
成本优势:输入价格为 3 美元 / 百万 Tokens,输出价格为 15 美元 / 百万 Tokens,上下文窗口长度达 200K Tokens,价格为 Claude 3 Opus 的五分之一 ,在性能提升的同时,降低了使用成本。
-
创意写作突出:能够更好理解 prompt (指令) 之间的细微差别,有更强的幽默能力,在创意写作方面表现出色。
-
-
应用场景:适用于需要处理多模态数据,尤其是对视觉处理和创意写作有需求的场景,如广告设计创意生成、多模态内容分析等;也适用于对成本敏感且有一定性能要求的企业应用场景。
六、Stable Diffusion 系列
从语言模型转向图像生成领域,Stable Diffusion 系列模型凭借其开源免费的特性和强大的图像生成能力,在该领域掀起了一阵热潮。它由 Stability AI 公司开发,为众多创作者和开发者提供了丰富的创作可能。
Stable Diffusion
-
推出时间:2022 年 8 月
-
参数量:未提及(初代模型在后续不断迭代升级)
-
性能:用户输入想要的内容,系统就能依据现有艺术作品组成的巨大数据库训练成果,快速生成与提示信息相关联的新奇图像,能实现从文本到图像的转化。
-
亮点:
-
开源免费:吸引了大量开发者和艺术家参与改进和扩展其功能,形成了活跃的社区生态,促进了技术的快速发展和应用拓展。
-
生成速度快:能够快速响应用户输入,生成图像,满足用户对效率的需求。
-
-
应用场景:广泛应用于艺术创作领域,帮助艺术家快速生成创意草图、概念图;在游戏开发中用于生成游戏场景、角色等美术资源;在影视制作中辅助生成特效画面、分镜图等。
-
论文:High-Resolution Image Synthesis with Latent Diffusion Models ,该论文发表于 2022 年 IEEE/CVF 计算机视觉与模式识别会议(CVPR)。论文中提出了基于潜在扩散模型(Latent Diffusion Models,LDMs)的高分辨率图像合成方法,介绍了如何利用预训练的文本编码器和扩散模型实现从文本到图像的生成,为 Stable Diffusion 的实现提供了理论基础。论文作者包括 Robin Rombach、Andreas Blattmann、Dominik Lorenz、Patrick Esser 和 Björn Ommer 。
Stable Diffusion 2.0
-
推出时间:2022 年 11 月
-
参数量:未提及
-
性能:在初代基础上进行了性能优化,生成的图像在质量和细节上有所提升,能更好地理解和处理用户输入的文本描述,生成更符合预期的图像。
-
亮点:
-
图像质量提升:相比初代,生成的图像更加细腻、逼真,细节表现更出色,在人物、场景等图像生成方面有更自然的呈现。
-
稳定性增强:在生成过程中,模型的稳定性进一步提高,减少了生成异常图像的概率。
-
-
应用场景:除了初代的应用场景外,在对图像质量要求更高的商业设计领域,如产品包装设计、广告海报设计等方面得到更广泛应用。
-
论文:虽然没有专门针对 Stable Diffusion 2.0 的独立论文,但可参考基于扩散模型在图像生成中改进和优化的相关研究论文,以及初代论文拓展出来的关于模型迭代优化的后续研究,来理解其技术改进方向。另外,在模型相关的Hugging Face 页面中提及了相关技术原理,如基于 lama 的掩膜生成策略等,与模型性能提升相关。
Stable Diffusion XL 0.9
-
推出时间:2023 年 6 月
-
参数量:具备一个 35 亿参数的基础模型和一个 66 亿参数的附加模型
-
性能:可以创建深度更广、分辨率更高的逼真图像,在处理复杂场景和细节丰富的图像生成任务时表现出色,能生成具有更强视觉冲击力的图像。
-
亮点:
-
多模型协作:通过基础模型和附加模型的协作,提升了对复杂信息的处理能力,拓宽了图像生成的边界。
-
高分辨率图像生成:满足了对高分辨率图像有需求的用户,如高清壁纸制作、大型喷绘广告设计等场景。
-
-
应用场景:适用于对图像深度和分辨率要求极高的场景,如高质量摄影作品模拟、建筑设计效果图生成、虚拟现实场景构建等。
-
论文:目前暂无专门针对 Stable Diffusion XL 0.9 的学术论文,但在其Hugging Face 页面提及,sdxl 由两步潜在扩散管道组成,可参考关于多模型协作、高分辨率图像生成技术相关的研究,理解其技术原理。后续可关注 Stability AI 公司或相关学术平台,获取关于该版本模型的正式论文。
Stable Diffusion 3 早期预览版
-
推出时间:2024 年 2 月 22 日
-
参数量:模型尺寸从 800m 到 8B 参数,适用于各种设备部署
-
性能:在图片质量、多主题提示和单词拼写能力方面有大幅提升;使用了新型扩散变压器(类似于 Sora)并结合了流量匹配和其他改进,使得生成的图像更加准确、生动,能更好地处理多主题的复杂提示。
-
亮点:
-
新技术应用:采用新型扩散变压器和流量匹配技术,提升了模型的性能和效果。
-
全流程安全保障:安全贯穿模型训练、测试、评估和部署全过程,保障生成内容的安全性和合规性。
-
-
应用场景:在对图像质量和安全性要求较高的出版、教育等领域有潜在应用,如书籍插画生成、教育课件配图制作等。
-
论文:截至目前,官方未发布专门的论文。由于其采用了新型扩散变压器和流量匹配技术,可关注关于新型扩散模型结构和算法优化的相关研究,以及图像生成安全保障机制的研究论文,了解其技术基础。后续可关注官方渠道获取该版本模型的详细论文信息。
Stable Diffusion 3.5 全家桶
-
推出时间:2024 年 10 月 23 日(发布),其中 Stable Diffusion 3.5 Medium 于 2024 年 10 月 29 日公开发布
-
参数量:
-
Stable Diffusion 3.5 Large:拥有 80 亿参数。
-
Stable Diffusion 3.5 Large Turbo:是 Stable Diffusion 3.5 Large 的蒸馏版本。
-
Stable Diffusion 3.5 Medium:拥有 25 亿参数。
-
-
性能:
-
Stable Diffusion 3.5 Large:性能优于竞品模型并且响应迅速,是 Stable Diffusion 系列中最强大的模型,非常适合 1 百万像素分辨率的专业用例,在 prompt adherence 方面处于领先地位,图像质量可与更大的型号相媲美。
-
Stable Diffusion 3.5 Large Turbo:只需四步即可生成高质量图像,速度远快于 Stable Diffusion 3.5 Large,在同类模型中推理速度最快,在图像质量和及时性方面保持高度竞争力。
-
Stable Diffusion 3.5 Medium:采用改进的 MMDiT-X 架构和训练方法,可在消费级硬件上 “开箱即用”,在质量和定制易用性之间实现了平衡,能够生成分辨率在 0.25 到 2 百万像素之间的图像,表现优于其他中型型号,在 prompt adherence 和图像质量之间实现了平衡。
-
-
亮点:
-
可定制性强:轻松微调模型以满足特定创作需求,或根据定制的工作流程构建应用程序。
-
高效性能:经过优化,均可在标准消费级硬件上运行,尤其是 Stable Diffusion 3.5 Medium 和 Stable Diffusion 3.5 Large Turbo 型号。
-
多样化输出:无需大量提示,即可创建代表全世界的图像,涵盖不同肤色和特征的人物形象。
-
风格多样:能够生成各种风格和美感的图片,如 3D、摄影、绘画、线条艺术以及几乎任何可以想象到的视觉风格。
-
-
应用场景:
-
Stable Diffusion 3.5 Large:适用于对图像质量和性能要求极高的专业场景,如电影特效制作、高端艺术创作等。
-
Stable Diffusion 3.5 Large Turbo:适用于对生成速度要求较高的场景,如实时创意展示、快速概念生成等。
-
Stable Diffusion 3.5 Medium:适用于普通用户和中小企业,用于日常图像创作、产品设计、社交媒体内容制作等场景。
-
-
论文:目前尚未有官方发布的论文。鉴于其在模型架构(如 MMDiT-X 架构)、训练方法、性能优化等方面的改进,后续可关注与图像生成模型架构创新、训练效率提升、多模态融合等相关领域的学术论文,以及 Stability AI 官方发布的技术文档和论文,以获取关于 Stable Diffusion 3.5 全家桶的详细技术信息。
七、Midjourney 系列
在图像生成领域,除了 Stable Diffusion 系列,Midjourney 系列同样凭借其独特的技术和出色的图像生成效果吸引了大量用户。它以独特的设计理念和强大的功能,为用户带来了全新的图像创作体验。
Midjourney 的读音为:英 /ˌmɪdˈdʒɜːni/;美 /ˌmɪdˈdʒɜːrni/。其名称蕴含着深厚的文化内涵,来源于《庄子》的 “中道” 思想。在 2023 年世界人工智能大会上,Midjourney 创始人大卫・霍尔茨表示,他热衷于阅读科幻文学和中国古典文学 ,“Midjourney” 灵感便来自《庄子》中庄周梦蝶所对应的中文 “中道”。“Midjourney” 意为 “中间的旅途”,象征着我们正处在从丰富美丽的过去迈向充满无限可能未来的进程中。
Midjourney V1 - V4
-
推出时间:Midjourney 从 2022 年开始陆续推出多个版本,早期版本如 V1、V2、V3 逐步探索和发展图像生成技术,V4 在之前版本基础上有较大提升。
-
参数量:官方未明确公布具体参数量。
-
性能:随着版本迭代,图像生成的质量和效果不断提升。早期版本初步实现从文本到图像的转化,生成图像具备基本的视觉元素;V4 版本在图像细节、色彩表现、对复杂指令的理解等方面有显著进步,能够生成更具创意和质量的图像。
-
亮点:作为较早向大众开放使用的快速生成 AI 制图平台,允许用户选择不同画家的艺术风格,如安迪・沃霍尔、达芬奇、达利和毕加索等,还能识别特定镜头或摄影术语,为用户提供丰富的创作可能性。
-
应用场景:在创意探索、概念验证、视觉内容创作等方面广泛应用,帮助设计师快速生成创意草图,为艺术家提供灵感来源,也用于广告设计、影视概念设计等领域。
-
论文:目前暂无公开的学术论文详细阐述这些版本的技术细节,其技术原理主要基于 AI 图像生成的通用技术,如深度学习中的神经网络架构、图像生成算法等。用户可通过 Midjourney 官方文档、社区讨论以及 AI 图像生成技术的一般性研究来了解相关技术。
Midjourney V5.2
-
推出时间:早于 V6 版本推出,具体时间暂未明确。
-
参数量:未公开。
-
性能:能生成细节丰富、画面质量较高的图像,在图像的构图、光影效果、物体形态表现等方面有较好的呈现,对用户输入的提示词有较好的理解和转化能力。
-
亮点:在图像生成的稳定性和准确性上有一定提升,能够更稳定地生成符合用户大致需求的图像,减少生成结果的随机性和偏差。
-
应用场景:在商业设计领域,如品牌海报设计、产品包装设计等;在艺术创作领域,用于生成艺术作品、插画等;在游戏开发中,协助生成游戏场景概念图、角色设计图等。
-
论文:同样没有公开的专门论文,其技术可能是在之前版本基础上对模型架构、训练算法等进行优化,可参考 AI 图像生成技术的相关研究,以及 Midjourney 官方分享的技术改进说明和社区技术讨论。
Midjourney V6
-
推出时间:2024 年 12 月 21 日进入内测更新。
-
参数量:未公开。
-
性能:
-
图像质量提升:对数据源和算法进行显著改进,生成的图像更为逼真、精细且细节丰富,在材质、人物肖像以及光影效果的刻画上实现深度优化,提升图像整体质感和真实度。
-
提示词理解增强:在理解用户输入的提示(prompts)方面取得显著进步,能处理并理解精确度较低的词汇,支持的有效字符长度超过 350 个,更准确地理解并生成符合提示词的图像。
-
语义理解优化:在语义理解方面显著提升,用户无需添加过多无意义的 TAG,如 “获奖、超现实、4k、8k” 等,可直接写出想要绘制的内容。
-
文本插入功能:新增对英文文本插入的支持,用户在文本框中使用引号标出所需添加的文字,就能生成包含准确文本的图片 。
-
-
亮点:生成的图像在真实度和细节表现上达到新高度,在处理复杂场景和细节丰富的图像生成任务时表现出色,能生成具有更强视觉冲击力的图像。
-
应用场景:适用于对图像质量和细节要求极高的场景,如高端艺术创作、电影特效概念设计、高质量商业摄影模拟等;也用于需要精确图像生成以匹配复杂文本描述的场景,如书籍插画生成(根据文字描述生成精准插画)、产品设计原型图生成(依据设计理念生成图像)等。
-
论文:截至目前,官方尚未发布相关论文。鉴于其在数据源、算法、语义理解等方面的改进,后续可关注与 AI 图像生成技术创新、模型优化、语义理解与图像生成结合等相关领域的学术论文,以及 Midjourney 官方发布的技术文档和论文,以获取关于 V6 版本的详细技术信息。
Midjourney V6.1
-
推出时间:在 V6 基础上更新推出,具体时间待补充。
-
参数量:未公开。
-
性能:
-
图像连贯性提升:在手臂、腿、手、身体、植物、动物等元素的连贯性表现上更好,生成的图像在这些方面更加自然流畅。
-
图像质量增强:减少像素伪影,增强纹理、皮肤等细节表现,提升图像整体质量。
-
小图像特征优化:对眼睛、小脸、远处的手等小图像特征的描绘更精确、详细和正确。
-
放大器升级:新的 2x 放大器具有更好的图像 / 纹理质量。
-
处理速度加快:标准图像处理速度提升约 25%。
-
文本准确性改进:在提示中使用 “引号” 绘制单词时,文本准确性得到提高。
-
个性化模型更新:配备全新升级的个性化模型,具有改进的细微差别、惊喜和准确性,以及个性化代码版本控制(使用旧版本中的任何个性化代码来使用该个性化模型和数据)。
-
新模式增加:新增 --q 2 模式,处理时间延长 25%,有时会增加更多纹理,但图像连贯性有所降低。
-
-
亮点:在图像质量、连贯性、细节处理以及个性化模型等多方面进行优化升级,使生成的图像整体更加美观、准确,提升用户创作体验。
-
应用场景:延续 V6 的应用场景,在对图像质量和细节要求苛刻的专业领域,如高端广告设计、虚拟现实场景构建等,能更好地满足需求;也为普通用户和创作者提供更优质的图像生成服务,助力日常创意表达和内容创作。
-
论文:目前没有公开论文,后续可关注 Midjourney 官方渠道以及相关学术平台,获取关于该版本在模型优化、性能提升等方面的技术论文。
以上这些主流 AI 模型系列,无论是在自然语言处理领域,还是在图像生成等其他领域,都以各自独特的方式推动着人工智能技术的发展,为我们的生活和工作带来了更多的便利和创新可能。随着技术的不断进步,相信这些模型还将持续演进,创造出更多令人惊叹的成果。