腾讯中文通用视频模型—Hunyuan-Video，已开源

AMiner：AI科研助手

已于 2024-12-10 19:52:15 修改

阅读量846

点赞数 29

文章标签：语言模型智能体人工智能 agent ocr

于 2024-12-10 19:52:00 首次发布

本文链接：https://blog.csdn.net/AI_Conf/article/details/144381998

版权

大模型(LLM)是一种人工智能模型，旨在理解和生成人类语言。它们在大量的文本数据上进行训练，可以执行广泛的任务，包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大，包含数十亿的参数，帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构，如转化器，这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底，OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT，由于其优秀的表现，ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题，吸引了广大科研人员和开发者的关注和参与。
在这里插入图片描述
为了方便大家阅读，只列出了论文标题、AMiner AI综述等信息，如果感兴趣可点击查看原文，PC端数据同步（收藏即可在PC端查看），每日新论文也可登录小程序查看。

如果想要对某篇论文进行深入对话，可以直接复制论文链接到浏览器上或者直达AMiner AI页面：
https://www.aminer.cn/chat/g/explain

Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling

【要点】：本文介绍了InternVL 2.5，一种先进的开源多模态大型语言模型系列，通过模型、数据和测试时扩展，实现了性能的显著提升，并在多项基准测试中表现出与顶级商业模型相媲美的性能。
【方法】：作者在维持InternVL 2.0核心模型架构的基础上，对训练和测试策略以及数据质量进行了系统性的增强，探讨了模型规模与性能之间的关系。
【实验】：通过对包括多学科推理、文档理解、多图像/视频理解、现实世界理解、多模态幻觉检测、视觉定位、多语种能力和纯语言处理在内的广泛基准进行评估，InternVL 2.5展现了竞争力，使用的数据集未明确提及，但结果证明了模型在Chain-of-Thought推理上实现了超过70 3.7点的改进，并具有测试时扩展的强大潜力。
【链接】：https://www.aminer.cn/pub/67565a50ae8580e7ff8e27c4

EXAONE 3.5: Series of Large Language Models for Real-world Use Cases

【要点】：LG AI Research发布的EXAONE 3.5系列大型语言模型在指令遵循、长文本理解和通用性能方面表现突出，实现了创新性进展。
【方法】：通过指令微调技术，开发出三种不同规模（32B、7.8B和2. 在长文本处理和通用任务上进行了优化。
【实验】：EXAONE 3.5模型在七个指令遵循基准测试中取得最高分，在四个长文本理解基准测试中达到最佳性能，并在九个通用基准测试中与最先进的开放模型相比具有竞争力；使用的数据集名称未在摘要中提及，但模型可在https://huggingface.co/LGAI-EXAONE下载。
【链接】：https://www.aminer.cn/pub/67565a0eae8580e7ff8d8dde

LiFT: Leveraging Human Feedback for Text-to-Video Model Alignment

【要点】：本文提出了一种名为LiFT的新颖微调方法，通过利用人类反馈来提高文本到视频模型与人类偏好的一致性，解决了传统模型在准确反映人类偏好方面的不足。
【方法】：作者通过构建一个包含大约10k人类评分和相应理由的人类评分注释数据集LiFT-HRA，训练了一个奖励模型LiFT-Critic来学习有效的奖励函数，该函数作为人类判断的代理，衡量给定视频与人类期望之间的一致性。
【实验】：作者将所提方法应用于CogVideoX-2B模型，并使用LiFT-HRA数据集进行实验，结果显示微调后的模型在所有16个指标上均优于CogVideoX-5B，证明了利用人类反馈在提高合成视频一致性和质量方面的潜力。
【链接】：https://www.aminer.cn/pub/675659efae8580e7ff8d68a8

MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale

【要点】：本文提出了一种构建大规模多模态指令微调数据集的方法，通过丰富的中间推理来激发连贯思维链（CoT）推理，显著提升了多模态大型语言模型的推理能力。
【方法】：作者利用开源模型，开发了一种可扩展且成本效益高的方法，创建了包含12M指令-响应对的指令微调数据集，该数据集覆盖了多种推理密集型任务，并提供了详细且准确的中间推理。
【实验】：通过在MathVerse和MMMU-Pro等基准测试上进行实验，证明了在该数据集上训练的多模态大型语言模型推理能力显著提升，达到了最先进的表现，其中MathVerse提高了8.1%，MMMU-Pro提高了7%，并且进一步的研究强调了数据构建过程中重写和自我过滤等关键组件的重要性。
【链接】：https://www.aminer.cn/pub/67565a4cae8580e7ff8e1609

HunyuanVideo: A Systematic Framework For Large Video Generative Models

【要点】：本文介绍了HunyuanVideo，一个创新的开放源视频生成基础模型，其性能与顶级闭源模型相当甚至更优，为开源社区提供了强大的视频生成工具。
【方法】：HunyuanVideo通过整合数据精选、先进架构设计、渐进式模型缩放训练以及为大规模模型训练和推理定制的效率化基础设施构建了全面的框架。
【实验】：我们训练了一个拥有超过130亿参数的视频生成模型，这是所有开源模型中最大的，并使用了一系列针对性设计进行了广泛的实验，确保了高视觉质量、运动动态、文字视频对齐和高级拍摄技术，实验结果表明HunyuanVideo超越了之前的最先进模型，包括Runway Gen-3、Luma 1.6和三个顶级的中国视频生成模型。数据集名称在文中未明确提及。代码已公开在https://github.com/Tencent/HunyuanVideo。
【链接】：https://www.aminer.cn/pub/675268feae8580e7ff34aacb