最新开源:腾讯再开源两款最新大模型!SAM2Long来了,无需训练大幅提升SAM 2!

No.1 腾讯开源 Hunyuan3D-1.0,文本图像10秒转3D资产

在这里插入图片描述

  • 论文地址:https://arxiv.org/pdf/2411.02293
  • 官网地址:https://3d.hunyuan.tencent.com/

11月5日,在腾讯混元大模型媒体沟通会上,腾讯混元宣布最新的MoE模型 “混元Large” 以及混元3D生成大模型 “Hunyuan3D-1.0” 正式开源。

腾讯混元 Large 是目前开源领域参数规模最大的MoE模型,在长文容量、专业度方面皆有所提升。

腾讯混元3D生成大模型 Hunyuan3D-1.0 是业界首个同时支持文字、图像生成3D的开源大模型,10s即可帮助用户生成3D资产。目前,3D生成大模型已应用于腾讯地图,使生成速度提升91%。

Hunyuan3D-1.0 模型架构如下,采用多视图生成、多视图重建两阶段生成方法。

在这里插入图片描述

通过两阶段的方法解决了现有3D生成扩散模型生成速度慢和泛化能力差的问题。第一阶段使用多视图扩散模型快速生成多视图RGB图像,第二阶段通过前馈重建模型快速重建3D资产。

该框架结合了文本到图像模型 Hunyuan-DiT,支持文本和图像条件的3D生成。标准版本的参数量是轻量版的三倍,能够在速度和质量之间实现平衡。

在这里插入图片描述

No.2 腾讯发布 Hunyuan-Large,业界最大开源MoE模型

在这里插入图片描述

  • 开源官网:https://llm.hunyuan.tencent.com/
  • 技术报告:https://arxiv.org/abs/2411.02265
  • Code下载: https://github.com/Tencent/Tencent-Hunyuan-Large
  • Models下载: https://huggingface.co/tencent/Tencent-Hunyuan-Large

11月5日,腾讯今日宣布推出业界参数规模最大、效果最好的开源MoE大语言模型 Hunyuan-Large。

Hunyuan-Large 模型的总参数量为389B、激活参数为52B、训练token数量为7T、最大上下文长度为256K、词表大小为12.8w。

该模型在自然语言处理、计算机视觉等领域表现出色,旨在通过优化资源消耗来保持高性能。

在这里插入图片描述

腾讯混元Large模型,与腾讯混元Pro、腾讯混元Turbo等不同尺寸的模型源于同一技术体系,已经在腾讯内部业务经过验证和广泛使用。

公开测评结果显示,Hunyuan-Large 在CMMLU、MMLU、C-Eval、MATH等多学科综合评测集上表现优异,在中英文自然语言处理、代码生成、数学运算等9大能力维度中全面领先,超过 Llama3.1、Mixtral 等一流开源模型。

在这里插入图片描述

此外,腾讯还宣布将推出自研的长文评测集“企鹅卷轴(PenguinScrolls)”,以填补行业在真实长文评测集上的空白。

No.3 港中文上海 AI Lab 推出 SAM2Long,无需训练即可大幅提升 SAM 2!

在这里插入图片描述

  • 论文链接:https://arxiv.org/pdf/2410.16268
  • 项目链接:https://mark12ding.github.io/project/SAM2Long/
  • 代码链接:https://github.com/Mark12Ding/SAM2Long

Segment Anything Model 2(SAM 2)在传统视频目标分割任务大放异彩,引起了众多关注。然而,尽管 SAM 2 已经具备出色的性能,但仍有其局限性,例如对不同场景的适应能力不足。

SAM 2 的贪婪选择策略容易陷入「错误累积」的问题,即一次错误的分割掩码选择将影响后续帧的分割结果,导致整个视频分割性能的下降。这个问题在长视频分割任务中显得更加严重。

近日,香港中文大学与上海AI Lab联合推出全新的 SAM2Long。

SAM2Long 项目旨在提升 SAM 2 在长视频分割中的表现,通过引入无训练的记忆树结构,解决了在长视频场景中常见的「错误累积」问题。该项目在处理物体遮挡和重现时表现出色,显著提高了分割的准确性和鲁棒性。

在这里插入图片描述

  • SAM2Long 在所有模型规模优于 SAM 2:在 SA-V 验证集和测试集以及 LVOS v2 验证集上的实验结果显示,SAM2Long 无论在何种模型规模下,均显著超越了 SAM 2。
  • SAM2Long 超越现有方法,实现 SOTA:尽管 SAM 2.1 已经在众多数据集上显著超越了现有方法,但 SAM2.1Long 将这一成绩推向了更高的水平。特别是在 SA-V 验证集上,SAM2.1Long 的 J&F 得分为 81.1,较 SAM 2.1 提升了 2.5 分。

在这里插入图片描述

No.4 中科院与字节联合发布 DreamClear,隐私安全优先的高性能图像修复技术

在这里插入图片描述

  • 论文地址:https://arxiv.org/pdf/2410.18666
  • Code和Model下载: https://github.com/shallowdream204/DreamClear

DreamClear 是中国科学院自动化研究所和字节跳动团队联合推出的高性能图像修复技术,专注于隐私安全的数据集管理,能将低质量(LQ)图像恢复为高质量(HQ)图像。

DreamClear 的主要功能:

  • 图像恢复:DreamClear 能将低质量图像恢复为高质量图像,提升图像的细节和质量。
  • 隐私保护:在进行图像恢复的同时,DreamClear 考虑到了数据隐私的保护,确保在使用过程中用户的隐私安全。
  • 深度学习模型:基于深度学习技术,DreamClear 能智能识别和修复图像中的问题,提高恢复效果。

欢迎各位关注我的个人微信公众号:HsuDan,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值