抱抱脸上第一的开原模型Qwen2-72B;腾讯开源人像照片生成视频的模型;Facebook开源翻译模型;智谱 AI 推出的最新一代预训练模型

✨ 1: Qwen2

Qwen2 是一种多语言预训练和指令调优的语言模型,支持128K上下文长度并在多项基准测试中表现优异。

在这里插入图片描述

Qwen2(全称“Qwen Qwen”,简称Qwen)是一个先进的大语言模型家族,在其前身Qwen1.5的基础上进行了重大提升和改进。Qwen2系列包含五种规模的预训练和指令微调模型:Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B和Qwen2-72B。这些模型不仅在中文和英文数据上进行了训练,还新增了27种其他语言的数据,从而显著提升了其多语言处理能力。

Qwen2在多个基准测试中表现出色,不仅在通用任务上具有强大的性能,在编程和数学方面的表现也得到了显著提高。此外,Qwen2-7B-Instruct和Qwen2-72B-Instruct模型支持长达128K tokens的上下文长度,进一步扩展了模型的应用场景。

Qwen2凭借其多语言和多任务处理能力,在各类自然语言处理、代码生成和数学计算等领域展现出广泛的应用前景。

地址:https://github.com/QwenLM/Qwen2

✨ 2: V-Express

V-Express人像照片生成视频的模型,逐步训练以生成高质量的肖像视频。

在这里插入图片描述

V-Express 是腾讯开源的一种用于人像视频生成的条件Dropout渐进训练方法,能够在生成视频时平衡多种控制信号。随着单张图像生成视频的应用越来越普遍,生成模型常被用来增强各种控制信号。然而,控制信号的强弱存在很大差异,比如文本、音频、图像参考、姿态、深度图等。我们在研究中发现,音频信号常常被更强的信号(如姿态和原始图像)干扰,导致生成的效果不理想。为了解决这一问题,我们提出了V-Express方法,通过一系列渐进的Dropout操作平衡不同的控制信号,使得较弱信号也能有效控制生成过程,从而兼顾姿态、输入图像和音频的生成能力。

通过这种方式,V-Express 可用于生成高质量的说话人像视频,广泛应用于视频创作、虚拟主播以及其他娱乐和研究领域。

地址:https://github.com/tencent-ailab/V-Express

✨ 3: 快手版Sora「可灵」

快手版Sora「可灵」开放测试,生成超长1080p视频,模拟真实物理与复杂运动。

在这里插入图片描述

快手版Sora「可灵」是一款全新的国产视频生成大模型,已开放测试应用。该模型基于类似Sora的技术路线,并结合多项自研技术能生成包括复杂运动在内的长达2分钟、分辨率高达1080p的视频。与实验室演示不同,可灵已在快影APP中正式上线、开放邀测,且提供720P视频生成及即将开放的竖版视频生成能力。

可灵大模型能准确模拟物理世界特性和复杂运动,并具备强大的概念组合和想象力。技术方面,采用类Sora的DiT结构,并在隐空间编/解码、时序建模等模块进行了独特优化。此外,通过构建高质量数据筛选方案,提高模型运算效率和训练效果,支持多种控制信息输入。

快手不仅将可灵应用于文生视频,还推出了基于该模型的“AI舞王”等应用。未来,还将上线图生视频功能。作为短视频领域的头部厂商,快手致力于将大模型技术应用于实际场景,通过快影APP让用户体验AI视频创作的能力。

地址:https://kling.kuaishou.com/

✨ 4: fairseq

fairseq是一个用于训练自定义翻译、摘要和语言模型等序列模型的工具包。

在这里插入图片描述

Fairseq是一个由Facebook开发的序列建模工具包,旨在帮助研究人员和开发者训练自定义模型,用于翻译、摘要生成、语言建模以及其他文本生成任务。它实现了多种序列建模方法,包括卷积神经网络(CNN)、轻量和动态卷积模型、长短期记忆网络(LSTM)和自注意力变换器(Transformer)等。

Fairseq除了一些预训练模型外,还提供详细的文档和示例,帮助用户快速上手。

地址:https://github.com/facebookresearch/fairseq

✨ 5: GLM-4

GLM-4是智谱AI推出的最新多语言、多模态预训练模型系列,性能卓越,支持多种高级功能。

在这里插入图片描述

GLM-4 系列是智谱 AI 推出的最新一代预训练模型,包含多个版本和模型类型,其中 GLM-4-9B 和 GLM-4-9B-Chat 是其中的关键开源版本。这些模型在多个方面(如语义、数学、推理、代码以及知识)都表现出色,并且超越了 Llama-3-8B。

  • 高性能:在多项数据集评测中,无论是 GLM-4-9B 还是 GLM-4-9B-Chat,都表现出卓越的性能。
  • 多轮对话:支持多轮对话,具备网页浏览、代码执行、自定义工具调用(Function Call)和长文本推理等功能。
  • 多语言支持:支持26种语言,包括日语、韩语和德语等。
  • 多模态能力:GLM-4V-9B 具备视觉理解能力,可以处理高分辨率图像,并在感知推理、文字识别、图表理解等任务上表现优异。

使用 GLM-4 系列模型,可以快速部署高性能的多功能 AI 应用,覆盖从自然语言处理、编程辅助到多模态理解的各种需求。

地址:https://github.com/THUDM/GLM-4



更多AI工具,参考国内AiBard123Github-AiBard123 公众号:每日AI新工具

  • 6
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

go2coding

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值