【AIGC半月报】AIGC大模型启元：2024.06（上）

置顶 LeeZhao@

已于 2024-06-16 16:45:42 修改

阅读量663

点赞数 9

分类专栏： AIGC 文章标签： AIGC 人工智能 AI Agent

于 2024-06-02 09:23:15 首次发布

本文链接：https://blog.csdn.net/qq_36722887/article/details/139383876

版权

AIGC 专栏收录该内容

18 篇文章 5 订阅

订阅专栏

AIGC大模型启元：2024.06（上）

(1) ChatTTS（语音合成项目）

2024.06.01 ChatTTS 文本转语音项目爆火出圈，引来大家极大的关注。短短三天时间，在 GitHub 上已经斩获了 9.2 k 的 Star 量。
　　ChatTTS 不仅能说中文，英文也能 hold 住，还支持一些细粒度控制，它允许你加入笑声、说话间的停顿，还有语气词，可玩性很强。
　　它可以复刻已经逝去的人的绝版声音，想要再听到乔布斯开发布会，随时都可以。听它模仿霉霉的音色，不论是语调还是语气的变化，都挺接近本人，几乎听不出来 AI 味儿。
　　中英文混说也能拿捏，这口半英半中的腔调勇闯留子圈，ChatTTS 的语言能力已达到 next level。
　　目前 ChatTTS 支持中文和英文。最大模型使用了超过 10 万小时的中英文数据进行训练。在 HuggingFace 中开源的版本为 4 万小时训练且未 SFT 的版本。

(2) Mamba-2（大模型新架构Mamba升级）

2024.06.03 在开源社区引起「海啸」的Mamba架构，再次卷土重来！这次，Mamba-2顺利拿下ICML。通过统一SSM和注意力机制，Transformer和SSM直接成了「一家亲」，Mamba-2这是要一统江湖了。
　　性能方面，Mamba-2采用了新的算法（SSD），比前代提速2-8倍，对比FlashAttention-2也不遑多让，在序列长度为2K时持平，之后便一路遥遥领先。
　　在Pile上使用300B token训练出的Mamba-2-2.7B，性能优于在同一数据集上训练的Mamba-2.8B、Pythia-2.8B，甚至是更大的Pythia-6.9B。

推荐文章： Mamba-2新架构出世一统江湖！普林斯顿CMU华人再出神作，性能狂飙8倍
论文地址： https://arxiv.org/pdf/2405.21060
开源代码和模型权重： https://github.com/state-spaces/mamba

(3) GLM-4 9B（智谱开源LLM）

2024.06.05 智谱AI发布新一代MaaS平台2.0，GLM-4系列模型实现性能提升并降低成本。GLM-4-9B模型首次开源，具备多模态能力，性能超越Llama-3。平台支持企业训练私有模型，LoRA微调成本仅300元。智谱AI坚持开源，推动国内模型开源走向世界。如今，平台上已经全线接入新模型，由ChatGLM3-6B升级为GLM-4-9B，堪称“最能打的小模型”，已经全面超过了 Llama3-8B-Instruct。
　　令人惊喜的是，第四代GLM系列开源模型GLM-4 9B，官宣开源免费用，还具备了多模态能力。同时，新发布的GLM-4-AIR性能媲美此前的最大基座模型，且价格降至1元/M token。
　　除了文本模型，这次一并开源了多模态模型GLM-4V-9B。最新模型采用了与CogVLM2相似的架构设计，能够处理高达1120 x 1120分辨率的输入，并通过降采样技术有效减少了token的开销。与CogVLM的不同之处在于，GLM-4V-9B并没有通过引入额外的视觉专家来增加参数量，而是采用了直接混合文本和图片数据的方式进行训练。
　　这种训练方法使得GLM-4V-9B模型能够同时具备强大的文本和视觉处理能力，实现了真正的多模态学习。
　　过去一年中，他们完成了3次基座大模型升级迭代，这次OpenDay 核心展示了面向AGI愿景的完整产品矩阵，透传出未来商业化的模式。
　　智谱AI正把MaaS商业模式提升到新的境界。MaaS平台2.0的诞生，将会进一步扩大智谱生态朋友圈。

(4) Seed-TTS（字节语音合成）

2024.06.06 字节跳动团队在语音合成技术领域取得了新进展，推出了名为Seed-TTS的新型语音生成模型。该模型基于自回归Transformer架构，能够生成接近人类语音的自然且富有表现力的语音。
　　Seed-TTS在情绪控制方面表现出色，能够调整生成语音的情感属性，包括但不限于愤怒、快乐、悲伤、惊讶等情感，以及语调和说话风格，如正式、非正式或戏剧化等。这种精细的情绪控制使得Seed-TTS能够满足多样化的需求。该模型生成的语音不仅自然，而且具有很强的表现力，能够模拟复杂的情感和语境，特别适合用于小说朗读、视频配音等场景。
　　Seed-TTS在零样本学习方面也展现出了强大的能力，即便没有训练数据，也能基于简短的语音片段生成高质量的语音，这使得它在需要快速适应新语境的场合非常有用。Seed-TTS支持语音内容和说话速度的编辑，用户可以灵活调整生成的语音，以适应不同的应用场景。

(5) QWen2（阿里大模型）

2024.06.07 Qwen系列模型从Qwen1.5升级到Qwen2， Qwen 2.0 主要内容如下：

5 个尺寸的预训练和指令微调模型，包括 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 以及 Qwen2-72B
在中文英语的基础上，训练数据中增加了 27 种语言相关的高质量数据；
多个评测基准上的领先表现；
代码和数学能力显著提升；
增大了上下文长度支持，最高达到 128K tokens（Qwen2-72B-Instruct）。

(6) VideoReTalking（数字人对口型）

2024.06.07 VideoReTalking 是一种基于深度学习的AI数字人技术，主要用于通过声音信号驱动和同步面部表情。这项技术是由西安电子科技大学、腾讯人工智能实验室和清华大学联合开发的。VideoReTalking 的主要特点是其能够根据输入的音频信号，精确控制AI数字人的面部表情，使其与声音相匹配，从而实现情感表达的同步。
VideoReTalking 的工作流程主要包括三个步骤：

面部视频生成：系统通过表情编辑网络对每一帧的面部表情进行修改，使其与一个标准表情模板相符，从而生成一个具有标准表情的视频。
音频驱动的嘴型同步：生成的标准表情视频和给定的音频一起输入到嘴型同步网络中，生成一个嘴型与音频同步的视频。
面部增强：最后，系统通过身份感知的面部增强网络和后处理来提高合成面部的照片真实性，使AI数字人的面部表情更加自然、逼真。
这项技术的优势在于其强大的声音驱动能力和高度的自动化程度。用户只需输入音频信号，系统就能自动生成与声音相匹配的面部表情，无需复杂的操作。这使得AI数字人的情感表达更加自然、流畅，大大提高了用户体验。

VideoReTalking 技术可以广泛应用于虚拟主播、智能客服、教育培训等领域。在实际应用中，为充分发挥其优势，需要注意选择合适的音频信号作为输入，并对生成的面部表情进行适当的调整和优化，以确保自然度和真实感。

推荐文章： 开源的数字人关键技术：AI对口型
代码地址： http://www.gitpp.com/digitallib/video-retalking
官方文档： https://opentalker.github.io/video-retalking/

(7) Stable Diffusion 3 Medium（文生图更新）

2024.06.13 Stable Diffusion 3 Medium（简称SD3 Medium）是Stability AI公司推出的文生图AI模型。
SD3 Medium拥有20亿参数，它的身材很“苗条”，可以完美适配你的家用电脑和笔记本。

照片级真实感：改善了手部和面部的常见问题，无需复杂工作流程即可生成高质量图像。
提示遵循：能够理解涉及空间关系、构图元素、动作和风格的复杂提示。
排版：在生成文本时，借助Diffusion Transformer架构，实现优秀的拼写能力。
资源高效：由于其低VRAM占用，可以在消费级GPU上运行，整体性能不受影响。
微调能力：能够从小数据集中吸收细节，适合定制化。

(8) Dream Machine（Luma AI文生视频）

2024.06.13 知名的3D建模平台Luma AI发布了他们的最新文生视频模型Dream Machine，并向所有用户免费开放使用。Dream Machine模型不仅支持文本输入，还可以使用图片作为引导来生成视频。其生成的视频在质量、动作一致性、色彩、光影、饱和度和运镜等方面可与OpenAI的Sora相媲美。

物理模拟支持:Dream Machine能够模拟现实世界的物理特性，如重力下落、碰撞和光影变化，这使得生成的视频更加逼真。
高质量视频生成:该模型能够生成高质量的视频，具有出色的动作连贯性和视觉效果。
免费使用:Dream Machine对所有用户免费开放，提供了一个免费体验的途径。

(9) Nemotron-4 340B（Nvidia开源模型）

2024.06.15 AIGC最赚钱的公司NVIDIA刚刚开源了超大模型Nemotron-4 340B[1]，它包括三个模型：Nemotron-4-340B-Base，Nemotron-4-340B-Instruct以及Nemotron-4-340B-Reward。Nemotron-4 340B的开源协议是NVIDIA Open Model License，可以用于商用。模型可以在F8精度下用一台8卡DGX H100部署。Nemotron-4-340B模型在benchmark上的表现也相当抢眼。
　　Nemotron-4-340B-Instruct的一个重要特性是用于对齐训练的数据集包含98%的合成数据，所以可以用于合成数据。配合Nemotron-4-340B-Reward模型，就可以用于生成训练小模型的数据