【AIGC半月报】AIGC大模型启元:2024.12(下)

(1)Phi-4(微软移动端大模型)

2024.12.18 微软研究院发布了最强小参数模型——Phi-4。
  Phi系列模型自今已经发布了5代,Phi-4也延续了之前的小参数模式只有140亿。
  但在GPQA研究生水平、MATH数学基准中,分别达到了56.1和80.4超过了GPT-4o,同时也超过了同类型的开源模型Qwen 2.5 -14B和Llama-3.3-70B。
  而在美国数学竞赛AMC的测试中,Phi-4达到了惊人的91.8分,再次超过了GeminiPro 1.5、GPT-4o、Claude 3.5 Sonnet、Qwen 2.5等知名开闭源模型,甚至整体性能可以与4050亿参数的Llama-3.1相媲美。
  Phi-4能以如此小的参数获得巨大性能,使用高质量合成训练数据是关键环节之一。
  传统的大模型通常依赖于从网络抓取或公开数据库获取的真实世界文本作为训练数据,这种方法虽然能够提供丰富的信息来源,但也容易受到噪声干扰和偏见影响。
  Phi-4则使用了种子策划、多Agent提示、自我修订工作流、重写和增强以及指令反转等多种合成方法,有效解决了传统无监督数据集的缺点。

参考博客:
微软发布Phi-4,最强小模型!参数极小、超GPT-4o
微软推出Phi-4大模型,擅长推理,超越Qwen 2.5

(2)Megrez-3B-Omni

2024.12.16 人工智能算力公司无问芯穹宣布,全球首个端侧全模态理解模型 Megrez-3B-Omni 正式开源。
  该团队从端侧算力的极致利用思路出发,打造了这个为端而生的全模态理解模型,选择了最适合手机、平板等端侧设备的 30 亿参数黄金尺寸,结构规整,推理速度最大领先同精度模型 300%。
  Megrez-3B-Omni 同时具备图片、音频、文本三种模态数据的处理能力,并在三个模态的多种测评基准中取得了最优性能。是目前最强的全模态理解开源端模型

图片、文本、音频,全模态高性能

  • Megrez-3B-Omni 未牺牲任何模态的精度,在图片、文本、音频三个模态中均取得了同尺寸下最优性能。
  • 无论是和同样三模态的 VITA ( based on Mixtral 8×7B) 、Baichuan-Omni-7B ,还是双模态的 MiniCPM-V 2.6 ( based on Qwen2-7B)、Qwen2-VL-7B、Qwen2-Audio-7B。
  • 又或是单一模态的 Qwen、Baichuan 等模型相比,Megrez-3B-Omni 在主流基准测试集上的表现都毫不逊色。

图片理解:3B 体量对标 34B 模型表现

  • 在图像理解方面,Megrez-3B-Omni 作为一个体积仅为 3B 的模型,其综合性能表现可以全面超过 34B 的庞然大物。
  • 超越 LLaVA-NeXT-Yi-34B 等模型,是目前 OpenCompass、MME、MMMU、OCRBench 等多个主流测试集上精度最高的图像理解模型之一。

参考博客:
最强的全模态理解开源端模型,诞生了!
首发!Megrez-3B-Omni全模态,图像理解、OCR、文本、语音
GitHub: https://github.com/infinigence/Infini-Megrez
HuggingFace: https://huggingface.co/Infinigence/Megrez-3B-Omni

(3)X-AnyLabeling v2.5.0(图像标注软件)

2024.12.16 X-AnyLabeling是一款集众多主流深度学习算法模型和丰富功能特性于一体的强大图像标注软件,其专注于解决实际应用。该软件能够显著提升标注效率和精度,为学术界和工业界提供高效的一站式解决方案,可快速且准确地完成多种复杂任务的标注。
  作为一款主打视觉标定的应用,X-AnyLabeling 不仅支持图像级的标注功能外,还特别引入了对视频文件的一键解析和自动标注功能。同时,为满足多样化的标注需求,X-AnyLabeling 提供了七种常用标注样式,全面适配不同的AI训练场景:
在这里插入图片描述
此外,X-AnyLabeling 还提供以下支持:

• 图像级与对象级标签分类和描述,广泛适用于以下子任务:
• 图像分类(Image Classification)
• 图像描述(Image Captioning)
• 图像标签 (Image Tagging)
• KIE 场景的 SER 和 RE 标注功能

参考博客: 图像标注神器 X-AnyLabeling v2.5.0 重磅发布 | 通用视觉任务全新升级,交互式视觉-文本提示功能全面上线!
GitHub: https://github.com/CVHub520/X-AnyLabeling

(4)voyage-code-3(代码检索专用嵌入模型)

2024.12.17 在AI技术不断发展的今天,代码检索这一领域迎来了新的突破。由Voyage AI团队推出的Voyage-code-3,作为一款专为代码检索任务设计的嵌入模型,不仅表现卓越,还大幅超越了当前的行业标杆,如OpenAI-v3-large和CodeSage-large。这一进展不仅重新定义了代码检索技术的潜力,也为广大开发者带来了全新的解决方案。
Voyage-code-3的亮眼表现
  在代码检索任务中,Voyage-code-3无疑是一个耀眼的明星。研究显示,这款模型在238个代码检索数据集上的测试中,平均性能相比OpenAI-v3-large和CodeSage-large分别提高了13.80%和16.81%,在多个维度上实现了技术飞跃。
  不仅如此,它在多种存储成本场景中也展示了卓越的表现。例如,在仅使用原始存储成本三分之一的情况下,Voyage-code-3的性能仍比对手高出13.80%,凸显其在高效性和性能之间的完美平衡。
  Voyage-code-3的强大之处不仅体现在检索性能上,还融入了多项技术创新,特别是在向量搜索的计算挑战和大规模代码库管理方面。

  • 1) Matryoshka嵌入技术
    Matryoshka嵌入是一种独特的分层嵌入技术,可以动态调整嵌入维度,从而更高效地适配不同的检索需求。这不仅降低了存储和搜索成本,也使模型在应对大型代码库时更加灵活。
  • 2) 先进的量化技术
    为了应对存储成本的挑战,Voyage-code-3引入了二值化和int8量化技术。这些技术显著减少了嵌入的存储占用,同时保持了高质量的检索能力。例如,在256维度二值化嵌入下,模型依旧能够比3072维浮点嵌入的性能高出4.81%。
  • 3) 二值重评分技术
    在标准二值检索的基础上,Voyage-code-3通过二值重评分技术进一步提升检索精度。这一改进使得在处理复杂代码查询时,模型的表现更加稳定和可靠。

参考博客: Voyage AI 推出 voyage-code-3:专为代码检索而优化的全新下一代嵌入模型

(5)MASA(匹配一切Matching Anything)

2024.12.16 MASA(Matching Anything By Segmenting Anything)提供了一个通用的实例外观模型,用于匹配任何 domain 中的任何对象。
在复杂场景中,相同对象跨视频帧的稳健关联对于许多应用程序至关重要,尤其是多对象跟踪 (MOT)。目前的方法主要依赖于标记的特定领域的视频数据集,这限制了学习到的相似性嵌入的跨域泛化。我们提出了 MASA,这是一种用于稳健实例关联学习的新方法,能够跨不同域匹配视频中的任何对象,而无需跟踪标签。利用 Segment Anything Model (SAM) 中丰富的对象分割,MASA 通过详尽的数据转换来学习实例级对应关系。我们将 SAM 输出视为密集对象区域建议,并学习从大量图像集合中匹配这些区域。我们进一步设计了一个通用的 MASA 适配器,它可以与基础分割或检测模型协同工作,并使它们能够跟踪任何检测到的物体。这些组合在复杂域中表现出很强的零镜头跟踪能力。对多个具有挑战性的 MOT 和 MOTS 基准的广泛测试表明,所提出的方法,仅使用未标记的静态图像,在零镜头关联中,比使用完全注释的域内视频序列训练的最先进的方法取得了更好的性能。
🏋 优势:
✅ 创新方法:MASA(通过分割任何内容匹配任何内容)框架是一种开创性的方法,它利用细分任何内容模型 (SAM) 进行关联学习,而无需依赖跟踪标签。这允许跨不同域匹配视频中的任何对象,从而提高对象跟踪系统的灵活性和稳健性。
✅ 通用适配器:MASA 适配器可以与各种基础分割和检测模型集成,显著提高它们跟踪任何检测到的对象的能力。这种普遍适用性证明了令人印象深刻的零镜头跟踪能力,使该方法具有高度的通用性。
✅ 综合评估:本文对几个具有挑战性的基准进行了广泛的评估,包括 TAO MOT、开放词汇 MOT、MOT 和 MOTS on BDD100K 以及 UVO。结果表明,MASA 的性能优于使用完全注释的域内视频序列训练的最先进的方法,凸显了其卓越的性能。
✅ 自我监督学习:该方法通过从丰富的未标记图像集合中构建密集的实例级对应关系,有效地利用了自我监督学习。这种方法增强了模型跨不同领域泛化的能力,从而减少了对大型带注释数据集的需求。
✅ 效率改进:MASA 适配器将分割过程显着加快了 10 倍以上,这对于实时跟踪应用程序至关重要。这种效率提升是在不影响跟踪准确性的情况下实现的,因此该方法可用于各种实际场景的部署。

参考博客: 继分割一切后,匹配一切(Matching Anything)也来了!

(6)CosyVoice2(阿里语音大模型)

2024.12.19 CosyVoice 2是阿里巴巴开发的流式语音合成模型,它通过整合大型语言模型,实现了高质量的语音合成。该模型支持流式和非流式合成,采用有限标量量化技术提高语音信息捕捉,简化模型架构,并开发了块感知因果流匹配模型以适应不同合成场景。CosyVoice 2在保持人类同等自然度的同时,几乎无损地实现了流式模式下的合成质量。

  • 语言支持
    支持语言:中文、英文、日语、韩语、中国方言(粤语、四川话、上海话、天津话、武汉话等)
    跨语言和混合语言:支持跨语言和代码切换场景的零样本语音克隆。
  • 超低延迟
    双向流支持:CosyVoice 2.0 集成了离线和流建模技术。
    快速首包合成:实现低至 150 毫秒的延迟,同时保持高质量的音频输出。
  • 高精度
    改进发音:与 CosyVoice 1.0 相比,发音错误减少了 30% 到 50%。
    基准测试成果:在Seed-TTS评估集的硬测试集上取得最低的字符错误率。
  • 稳定性强
    音色一致性:确保零样本和跨语言语音合成的可靠语音一致性。
    跨语言合成:与 1.0 版本相比有显著的改进。
  • 自然体验
    增强韵律和音质:改进了合成音频的对齐,将 MOS 评估分数从 5.4 提高到 5.53。
    情感和方言灵活性:现在支持更细致的情感控制和口音调整。

参考博客:阿里开源的声音克隆TTS重磅升级,CosyVoice2支持流式输出,更加流畅自然。
GitHub:https://github.com/FunAudioLLM/CosyVoice

(7)QvQ-72B-Preview(阿里巴巴推理大模型)

2024.12.25 Qwen团队创造了 QVQ —— 一个基于 Qwen2-VL-72B 构建的开源多模态推理模型。QVQ 在人工智能的视觉理解和复杂问题解决能力方面实现了重大突破。在 MMMU 评测中,QVQ 取得了 70.3 的优异成绩,并且在各项数学相关基准测试中相比 Qwen2-VL-72B-Instruct 都有显著提升。通过细致的逐步推理,QVQ 在视觉推理任务中展现出增强的能力,尤其在需要复杂分析思维的领域表现出色。
  QvQ-72B-Preview 是由 Qwen 团队开发的实验性研究模型,专注于增强视觉推理能力。尽管它的表现超出了预期,但仍有几个限制需要注意:

  • 语言混合和代码切换:模型可能会意外地混合语言或在语言之间切换,从而影响响应的清晰度。
  • 递归推理:模型可能会陷入循环逻辑模式,产生冗长的响应而无法得出结论。
  • 安全和伦理考虑:模型需要增强安全措施,以确保可靠和安全的性能,用户在部署时应保持谨慎。
  • 性能和基准限制:尽管模型在视觉推理方面有所改善,但它无法完全替代 Qwen2-VL-72B 的能力。此外,在多步骤视觉推理过程中,模型可能会逐渐失去对图像内容的关注,导致幻觉。

参考博客:Qwen开源视觉推理模型QVQ,更睿智地看世界!
模型链接:https://modelscope.cn/models/Qwen/QVQ-72B-Preview
体验链接:https://modelscope.cn/studios/Qwen/QVQ-72B-preview
中文博客:https://qwenlm.github.io/zh/blog/qvq-72b-preview

(8)DeepSeek-V3(深度求索大模型)

2024.12.30 Deepseekv3.0正式震撼上线,DeepSeek-V3 是一款性能卓越的混合专家(MoE) 语言模型,整体参数规模达到 671B,其中每个 token 激活的参数量为 37B。
  评估结果表明,DeepSeek-V3 在性能上超越了其他开源模型,并能够与主流闭源模型相媲美。
  DeepSeek-V3 在全面的基准测试评估中表现突出。尽管其训练成本较低,但综合评估结果显示,DeepSeek-V3-Base 已成为当前性能最强的开源基础模型,尤其在代码和数学领域表现卓越。其对话版本不仅超越了其他开源模型,还在多个标准和开放式基准测试中展现出与领先闭源模型(如 GPT-4o 和 Claude-3.5-Sonnet)相匹敌的性能。
  DeepSeek-V3 的完整训练总共消耗了 2.788M GPU 小时。按照每 GPU 小时 2 美元的 H800 GPU 租用价格计算,总训练成本仅为 557.6 万美元。

  • 架构创新
    在 DeepSeek-V2 高效架构的基础上,创新性地提出了无辅助损失的负载均衡策略,有效降低了负载均衡过程对模型性能的影响。
    开发并验证了多 token 预测(MTP)训练目标,证实了其对模型性能的提升作用,该技术还可用于推测解码来加速推理过程。
  • 高效预训练
    开发了 FP8 混合精度训练框架,首次在超大规模模型上验证了 FP8 训练的可行性和效果。
    通过算法、框架和硬件的综合优化,突破了跨节点 MoE 训练中的通信瓶颈,实现了计算与通信的高度重叠。这种优化大幅提升了训练效率,降低了训练成本,同时支持了更大规模模型的训练而无需额外开销。
    仅用 2.664M H800 GPU 小时就完成了 DeepSeek-V3 在 14.8T token 上的预训练,打造出当前最强大的开源基础模型。预训练后的其他训练阶段仅需 0.1M GPU 小时。
  • 后训练——DeepSeek-R1 知识蒸馏
    该研究提出了一种创新的知识蒸馏方法,将思维链 (CoT) 模型(特别是 DeepSeek R1 系列)的推理能力转移到标准 LLM 中,尤其是 DeepSeek-V3。这一方法成功地将 R1 的验证和反思机制整合到 DeepSeek-V3 中,显著提升了其推理能力,同时有效控制了输出的风格和长度。

核心评估成果

  • 知识领域评估:
    教育类基准测试中,DeepSeek-V3 的表现超越了所有开源模型,在 MMLU、MMLU-Pro 和 GPQA 测试中分别获得了 88.5、75.9 和 59.1 的优异成绩。这一性能水平已与领先闭源模型 GPT-4o 和 Claude-Sonnet-3.5 相当,显著缩小了开源与闭源模型的性能差距。
    事实性知识评测中,DeepSeek-V3 在 SimpleQA 和中文 SimpleQA 测试中都展现出领先于其他开源模型的优势。特别值得注意的是,虽然其英语事实知识(SimpleQA)略逊于 GPT-4o 和 Claude-Sonnet-3.5,但在中文事实知识(中文 SimpleQA)方面却超越了这些模型,凸显了其在中文知识领域的特殊优势。
  • 技术能力评估:
    数学领域,DeepSeek-V3 在所有非 CoT 模型(包括开源和闭源)中取得了最优性能。值得注意的是,在 MATH-500 等特定测试中,其表现甚至超越了 GPT-4o,充分展示了其出色的数学推理能力。
    编程领域,DeepSeek-V3 在 LiveCodeBench 等编程竞赛基准测试中表现最为突出,确立了其在该领域的领先地位。在软件工程相关任务中,尽管略低于 Claude-Sonnet-3.5,但仍大幅领先于其他模型,展示了其在各类技术评测中的综合实力。

参考博客
国产之光DeepSeek把AI大佬全炸出来了!671B大模型训练只需此前算力1/10,细节全公开
DeepSeek-V3技术报告解读
体验地址chat.deepseek.com
技术报告https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf
HuggingFace开源地址https://huggingface.co/deepseek-ai/DeepSeek-V3

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值