【AIGC半月报】AIGC大模型启元：2024.10（下）

本文链接：https://blog.csdn.net/qq_36722887/article/details/143184694

【AIGC半月报】AIGC大模型启元：2024.10（下）

(1) Janus（两面神）（DeepSeek 1.3B多模态大模型）

2024.10.21 DeepSeek开源了一个仅1.3B大小的多模态大模型：Janus（两面神），统一了多模态理解和生成。通过将视觉编码解耦成独立的pathway，同时仅使用一个统一的transformer架构进行处理。Janus在多模态理解和生成基准测试中超越了以往的统一模型，作为一个多模态“小”模型具有显著的优势。
　　Janus 是一个统一的多模态理解和生成的大型语言模型（MLLM），它将多模态理解和生成的视觉编码解耦。Janus 基于 DeepSeek-LLM-1.3b-base 构建，该模型训练时使用了大约5000亿个文本token的语料库。在多模态理解方面，它使用 SigLIP-L 作为视觉编码器，支持384 x 384像素的图像输入。在图像生成方面，Janus 使用了LlamaGen的tokenizer，并且具有16倍的下采样率。
在这里插入图片描述

(2) Stable Diffusion 3.5（StabilityAI文生图大模型）

2024.10.22 StabilityAI最新发布了Stable Diffusion 3.5，这次公开发布包括多个模型，包括Stable Diffusion 3.5 Large和Stable Diffusion 3.5 Large Turbo。此外，Stable Diffusion 3.5 Medium将于10月29日发布。这些模型因其大小而具有高度的可定制性，可以在消费级硬件上运行，并且根据宽容的Stable AI社区许可证，可以免费用于商业和非商业用途。目前已经可以Hugging Face下载模型，同时推理代码也已经开源
　　Stable Diffusion 3.5是Stable Diffusion 3的升级版，主要有三个版本：

Stable Diffusion 3.5 Large：8B参数大小，具有卓越的出图质量和提示词遵循能力，是Stable Diffusion家族中最强大的模型。这个模型非常适合专业使用案例，尤其是在1百万像素分辨率下。
Stable Diffusion 3.5 Large Turbo：作为Stable Diffusion 3.5 Large的蒸馏版本，它在仅4步内就能生成高质量图像，并且具有出色的提示词遵循能力，使其比Stable Diffusion 3.5 Large快得多。
Stable Diffusion 3.5 Medium（将于10月29日发布）：2.5B参数大小，通过改进的MMDiT-X架构和训练方法，旨在在消费级硬件上“即开即用”，在质量和定制便捷性之间取得平衡。它能够生成分辨率在0.25到2百万像素之间的图像。

推荐文章： Flux危，SD 3.5王者归来！个人可以免费商用！
开源地址：
Hugging Face：https://huggingface.co/stabilityai
GitHub：https://github.com/Stability-AI/sd3.5

(3) Mochi 1（Genmo视频生成大模型）

2024.10.23 新的视频生成模型Mochi 1发布并开源，Mochi 1在动作质量上展现了显著的改进，同时也具有极强的提示词遵循能力，而且从评测上超过可灵和Gen-3。在Apache 2.0许可证下，目前放出的Mochi 1的预览版可以免费用于个人和商业用途。
　　Mochi 1的背后是创业公司Genmo，其团队成员包括DDPM、DreamFusion和Emu Video等项目的核心技术成员。而且Genmo已经完成了由NEA领投的2840万美元A轮融资。
　　动作质量和提示词遵循能力是视频生成模型两个最关键的能力。Mochi 1作为一个开源模型，它与领先的封闭商业模型相比也具有非常强的竞争力。具体来说，我们Mochi 1的预览版在以下方面表现出色：

提示词遵循能力：与文本提示词保持一致性，确保生成的视频准确地反映给定的指令。这使用户能够对角色、设定和动作进行详细控制。这里使用视觉语言模型作为评判，遵循OpenAI DALL-E 3的协议，通过自动化指标来评估提示词遵循。这里具体使用Gemini-1.5-Pro-002评估生成的视频。
动作质量：Mochi 1以每秒30帧的流畅度生成长达5.4秒的视频，具有高时间连贯性和逼真的动作动态。Mochi模拟了流体动力学、毛发和头发模拟等物理现象，并表达出一致、流畅的人类动作，开始跨越恐怖谷。评分者被指示专注于动作而非帧级美学（标准包括动作的有趣性、物理上的合理性和流畅性）。Elo分数是按照LMSYS Chatbot Arena协议计算的。

推荐文章： 超过可灵和Gen-3，10B视频生成模型Mochi 1开源！
开源地址：
模型权重：https://huggingface.co/genmo/mochi-1-preview
在线体验：https://genmo.ai/play
代码：https://github.com/genmo/models

(4) sCM（OpenAI全新扩散模型方法文生图）

2024.10.24 OpenAI发布了全新扩散模型方法sCM，仅需2步就能生成高质量图片、3D模型等实现50倍时钟加速，尤其是在高分辨率任务上相当出色。
　　例如，通过sCM训练了一个15亿参数的模型，在单个A100 GPU上无需任何推理优化0.11秒内就能生成内容。
　　目前，扩散模型生成图片最快的是Stability AI开源的SD快速版本，4步就能生成高质量图片。而Scm在保证质量的前提下又将推理效率提升了1倍，同时简化了连续时间一致性模型的理论公式，允许模型在更大数据集上进行稳定的训练和扩展。
　　sCM的核心原理是基于一致性模型思路，通过直接将噪声转换为无噪声样本来生成数据。在传统扩散模型中，数据生成过程被视作一条从噪声到数据的渐进路径，每一步都通过去噪来逐渐恢复数据的清晰度。
　　一致性模型则恰恰相反，可找到一条更直接的路径，在单步或少数几步内直接从噪声状态跳跃到数据状态。
　　sCM采用了连续时间框架，使得模型在理论上可以在连续的时间轴上进行操作，从而避免了离散时间模型中的离散化误差。在连续时间于一致性模型中，模型的参数化、扩散过程和训练目标都被重新定义，以适应连续时间的设置。

推荐文章： 刚刚，OpenAI发布sCM提升50倍效率，扩散模型重大技术突破！
开源地址： /
论文地址： https://arxiv.org/abs/2410.11081

(5) Claude 3.5（Anthropic升级大模型）

2024.10.24 OpenAI最大的竞争对手Anthropic发布Claude 3.5新模型：升级版的Claude 3.5 Sonnet和新模型Claude 3.5 Haiku。升级版的Claude 3.5 Sonnet在其前身的基础上全面提升，特别是在编码领域，它已经领先于该领域，现在更是取得了显著的进步。Claude 3.5 Haiku在许多评估中与我们的前最大模型Claude 3 Opus的性能相匹配，成本相同，速度与前一代Haiku相似。
　　其中更新版的Claude 3.5 Sonnet在行业标准测试中表现优异，特别是在编程和工具使用任务上有了显著提升。在编码测试SWE-bench Verified中，性能从33.4%提升至49.0%，超过了所有公开可用的模型。在代理工具使用测试TAU-bench中，零售领域的性能从62.6%提升至69.2%，航空领域的性能从36.0%提升至46.0%。此外，新模型与前代价格和速度相同。
　　而Claude 3.5 Haiku是最快的模型的下一代。与Claude 3 Haiku的成本相同，速度相似，Claude 3.5 Haiku在每项技能上都有提升，并在许多智力基准测试中超越了前一代中最大的模型Claude 3 Opus。Claude 3.5 Haiku在编码任务上尤其强大。例如，它在SWE-bench Verified上的得分为40.6%，超过了使用公开可用的最先进模型的许多代理，包括原始的Claude 3.5 Sonnet和GPT-4o。

推荐文章： Claude 3.5新模型，超过GPT-4o，首发支持计算机使用
开源地址： /

(6) 星火大模型4.0 Turbo（科大讯飞升级大模型）

2024.10.24 2024科大讯飞全球1024开发者节上，科大讯飞星火大模型再次重磅升级，星火4.0 Turbo多项能力全面超过GPT-4 Turbo。
　　讯飞星火大模型4.0 Turbo在文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模态能力七大能力中全面超过GPT-4 Turbo，数学能力、代码能力超过GPT-4o，星火4.0 Turbo效率相对提升50%。
　　此外科大讯飞还首发了星火超拟人数字人、星火多语言大模型、汽车端侧星火大模型。面向医疗、教育等场景，科大讯飞首发基于“问题链”的高中数学智能教师助手，以及实现了讯飞星火医疗大模型2.0的六大核心场景能力升级，同时发布讯飞星火医学影像大模型。
　　基础设施层面，科大讯飞董事长刘庆峰宣布科大讯飞、华为、合肥市大数据资产运营有限公司三方联合打造的国产超大规模智算平台“飞星二号”正式启动。
　　刘庆峰公布了科大讯飞亮相星火大模型一年来的应用落地成绩单：讯飞星火央国企中标第一、教育医疗市场第一、智能汽车市场第一、智能硬件市场第一、工业大模型第一、赋能科研应用第一、大模型开发者生态第一。

(7) GLM-4-Voice（智谱AI多模态大模型）

2024.10.25 智谱的大模型家族加入了一位新成员——GLM-4-Voice 端到端情感语音模型。
　　GLM-4-Voice 能够理解情感，有情绪表达、情感共鸣，可自助调节语速，支持多语言和方言，并且延时更低、可随时打断。
　　作为端到端的语音模型，GLM-4-Voice 避免了传统的 “语音转文字再转语音” 级联方案过程中带来的信息损失和误差积累，也拥有理论上更高的建模上限。
　　GLM-4-Voice 具备以下特点：