【AIGC半月报】AIGC大模型启元：2024.04（下）

本文链接：https://blog.csdn.net/qq_36722887/article/details/138397492

AIGC大模型启元：2024.04（下）

(1) Llama-3（Meta LLM）

2024.04.19 全球科技、社交巨头Meta在官网，正式发布了开源大模型——Llama-3。
　　据悉，Llama-3共有80亿、700亿两种参数，分为基础预训练和指令微调两种模型（还有一个超4000亿参数正在训练中）。
　　与Llama-2相比，Llama-3使用了15T tokens的训练数据，在推理、数学、代码生成、指令跟踪等能力获得大幅度提升。
　　此外，Llama-3还使用了分组查询注意力、掩码等创新技术，帮助开发者以最低的能耗获取绝佳的性能。很快，Meta就会发布Llama-3的论文。

推荐文章： 重磅！Llama-3，最强开源大模型正式发布！
开源地址： https://huggingface.co/collections/meta-llama/meta-llama-3-66214712577ca38149ebb2b6
Github地址： https://github.com/meta-llama/llama3/
英伟达在线体验Llama-3： https://www.nvidia.com/en-us/ai/#referrer=ai-subdomain

(2) Eurux-8x22B（面壁智能）

2024.04.17 早在 Llama3 发布的前两天，『面壁智能』低调开源了大模型 Eurux-8x22B，包括 Eurux-8x22B-NCA 和 Eurux-8x22B-KTO。该模型主打更强大的推理性能——刷新开源大模型推理性能 SOTA，堪称开源大模型中「理科状元」。
　　除了开源时间早于 Llama3，Eurux-8x22B 的激活参数仅有 39B，推理速度更快，目前支持 64K 上下文，相比之下 Llama3-70B 的上下文大小为 8K。
　　此外，Eurux-8x22B 由 Mistral-8x22B 对齐而来，在 UltraInteract 大规模、高质量对齐数据集上训练而成，综合性能不输 Llama3-70B。
　　相比而言，Llama3-70B 模型则是使用了千万量级的对齐数据，这从侧面证明了 UltraInteract 数据集的优质性——数据质量胜过数据数量。
　　
推荐文章： 『面壁智能』低调开源「理科状元」Eurux-8x22B，推理性能超越 Llama3-70B
GitHub地址： https://github.com/OpenBMB/Eurus
HuggingFace地址： https://huggingface.co/openbmb/Eurux-8x22b-nca

(3) MEGALODON（Meta 上下文长度不受限的神经网络架构）

2024.04.12 来自 Meta、南加州大学、CMU、UCSD 等公司、机构引入了 MEGALODON，一种用于高效序列建模的神经架构，上下文长度不受限制。
　　MEGALODON 继承了 MEGA（带有门控注意力的指数移动平均）的架构，并进一步引入了多种技术组件来提高其能力和稳定性，包括复数指数移动平均（CEMA）、时间步归一化层、归一化注意力机制和具有两个特征的预归一化（pre-norm）残差配置。
　　在与 LLAMA2 的直接比较中，MEGALODON 在 70 亿参数和 2 万亿训练 token 的规模上取得了比 Transformer 更好的效率。MEGALODON 的训练损失达到 1.70，处于 LLAMA2-7B (1.75) 和 13B (1.67) 之间。MEGALODON 相对于 Transformers 的改进在不同任务和模式的一系列基准测试中表现强劲。

推荐文章： Meta无限长文本大模型来了：参数仅7B，已开源
论文地址： https://arxiv.org/pdf/2404.08801.pdf
GitHub地址： https://github.com/XuezheMax/megalodon

(4) Phi-3 Mini（微软-最强小参数大模型）

2024.04.23 Phi-3-mini是微软Phi家族的第4代，有预训练和指令微调多种模型，参数只有38亿训练数据却高达3.3T tokens，比很多数百亿参数的模型训练数据都要多，这也是其性能超强的主要原因之一。
　　Phi-3-mini对内存的占用极少，可以在 iPhone14等同类手机中部署使用该模型。尽管受到移动硬件设备的限制，但每秒仍能生成12 个tokens数据。
　　值得一提的是，微软在预训练Phi-3-mini时使用了合成数据，能帮助大模型更好地理解语言架构、表达方式、文本语义理解、逻辑推理以及特定业务场景的专业术语等。

推荐文章： 微软开源最强小参数大模型—Phi-3 Mini
开源地址： https://huggingface.co/collections/microsoft/phi-3-6626e15e9585a200d2d761e3
Ollama地址： https://ollama.com/library/phi3
技术报告： https://arxiv.org/abs/2404.14219

(5) 日日新5.0（商汤大模型5.0版）

2024.04.23 商汤科技正式发布全新大模型日日新5.0（SenseChat V5），采用混合专家架构（MoE），参数量高达6000亿，支持200K的上下文窗口。据官方披露，SenseChat V5具备更强的知识、数学、推理及代码能力，综合性能全面对标GPT-4 Turbo。
　　据官方介绍，SenseChat V5模型能力显著提升，其背后是训练数据的全面升级与训练方法的有效提升。在数据方面，SenseChat V5采用了新一代数据生产管线，生产了10T tokens的高质量训练数据。通过多个模型进行数据的过滤和提炼，显著提升了预料质量和信息密度；基于精细聚类的均衡采样确保对世界知识覆盖的完整性。同时，SenseChat V5还大规模采用了思维型的合成数据（数千亿tokens量级），这对于模型在逻辑推理、数学和编程等方面的能力提升起到了关键作用
　　SenseChat V5采用了自研的多阶段训练链路，包括三阶段预训练、双阶段SFT和在线RLHF。通过在每个阶段设定更加清晰聚焦的目标，实现更敏捷的调优，也避免了不同目标之间的相互干扰。其中在预训练阶段，分阶段培养模型的基础语言和知识能力、长文建模能力、以及复杂逻辑推理能力（规模化采用合成数据）；在 SFT 阶段，把任务指令遵循和对话体验优化分解到双阶段进行；在 RLHF 阶段，采用统一的多维度奖励模型和动态系统提示词对多维度偏好进行打分，从而更好地实现模型在多个维度和人类期望对齐。

推荐文章： 商汤「日日新5.0」中文基准测评出炉，总分80.03刷新最好成绩，文科能力领跑
体验地址： https://platform.sensenova.cn/home

(6) 中文版Llama3

2024.04.25 最近，Meta 推出了 Llama 3，为开源大模型树立了新的标杆。和以往的原始 Llama 模型一样，Llama 3 对中文的支持效果欠佳，经常会出现你用中文提问，它用英文或中文+英文回复的现象。因此，要想让国内用户用上该模型，开发者还需对其进行微调。

(7) Qwen1.5-110B（国产Llama3）

2024.04.27 开源界最近属实是太疯狂了，前有Llama3-70B模型开源，后有Qwen1.5开源千亿（110B）级别参数模型。
　　Qwen你真的让我开始捉摸不透了，1.5系列已经从0.5B、1.8B、7B、14B、32B、72B到现在的110B、还有Code系列模型、MOE系列模型，太全了，感觉已经快把中文开源模型市场给垄断了。
　　模型结构与之前模型相似，采用Transformer-Decoder架构，并使用分组查询注意力（Grouped Query Attention，GQA），加速模型推理计算。模型的最大长度为32K，支持英、中、法、西、德、俄、日、韩、越等多种语言。
　　在基础能力上的效果全面领先72B模型，与Llama3-70B模型也是平分秋色。
并且，值得注意的是，110B的模型是Dense的模型，不是虚胖的MOE模型

(8) Vidu（国产Sora）

2024.04.27 国产 AI 视频大模型 Vidu 在中关村论坛未来人工智能先锋论坛上发布。
　　“中国首个长时长、高一致性、高动态性视频”是 Vidu 的代名词，Vidu 模型由清华大学和生数科技联合开发，具有以下 6 大特征：模拟真实物理世界、富有想象力、具有多镜头语言、出色的视频时长、时空一致性高、理解中国元素。