字节跳动推出MagicVideo-V2超高清文生视频模型

最新推荐文章于 2025-02-19 09:27:18 发布

go2coding

最新推荐文章于 2025-02-19 09:27:18 发布

阅读量1.6k

点赞数 13

分类专栏： AI日报文章标签：人工智能

本文链接：https://blog.csdn.net/weixin_40425640/article/details/136020102

版权

AI日报专栏收录该内容

357 篇文章

订阅专栏

字节跳动的MagicVideo-V2展示了先进的视频生成技术；OLMo开源模型推动语言模型研究发展；Meta计划推出Artemis芯片减少对英伟达的依赖；微软强化OneDrive的AI功能；多模态大模型在OCR能力上取得进展。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述

🦉 AI新闻

🚀 字节跳动推出MagicVideo-V2超高清文生视频模型

摘要：MagicVideo-V2是由字节跳动的研究人员开发的一种超高清文生视频模型。该模型在视频的高清度、润滑度、连贯性、文本语义还原等方面表现出色，比目前主流的文生视频模型Gen-2、Stable Video Diffusion、Pika 1.0等更优秀。MagicVideo-V2将文生图像、图像生成视频、视频到视频和视频帧插值4种功能整合到一个模型中，解决了之前面临的4大难题。具体而言，它包括文生图像模块、图像到视频模块、视频到视频模块和视频帧插值模块，通过整合这些模块，该模型解决了文生视频领域的多项难题，获得了人类评估者的青睐。

🚀 史上最全的开源模型「OLMo」完全公开，引发关注

摘要：艾伦人工智能研究所等5个机构最近推出了开源模型「OLMo」，公开了模型的一切数据和技术细节，为开源社区设立了新的标杆。这个大语言模型提供了完整的训练代码、数据集和训练过程，引发了广泛关注。OLMo-7B在性能评估中表现优秀，超过了其他模型，但在一些任务上的表现有所欠缺。此外，研究人员还公开了预训练数据集Dolma，该数据集包含了30万亿个token。这一开源行为为语言模型研究提供了重要支持，并对其发展产生了深远影响。

🚀 Meta计划推新款自研AI推理芯片 Artemis，减少对英伟达芯片依赖

摘要：全球最大的社交媒体公司Meta计划推出新款自研AI推理芯片Artemis，预计年内在自有数据中心部署，并与英伟达GPU协同提供算力。该芯片是Meta去年宣布的内部芯片生产线的第二代产品，旨在减少Meta对英伟达芯片的依赖并控制运行AI负载带来的成本飙升。分析机构表示，成功部署自己的芯片有可能每年节省数亿美元的能源成本和数十亿美元的芯片采购成本。此外，Meta还在开发一款更有雄心的AI芯片，可执行训练和推理两种AI负载。

🚀 微软计划5月更新网页版OneDrive，整合AI功能扫描汇总文档内容

摘要：根据微软最新更新的Microsoft 365路线图，计划今年5月面向Microsoft 365用户，更新网页版OneDrive云盘服务。该更新将整合AI功能，实现自动扫描、汇总、梳理各种文档内容。除了在2月升级OneDrive云盘服务时实现AI生成文档摘要的功能外，此次的5月更新还将支持各种文档类型的查找和汇总，提高查找重要信息的速度，并轻松整合多个文件。新功能将支持多种文档格式，包括DOC、DOCX、FLUID、LOOP、PPT、PPTX、XLSX、PDF、ODT、ODP、RTF、ASPX、RTF、TXT、HTM和HTML文件。

🚀 多模态大模型OCR能力研究及评估

摘要：华中科技大学联合华南理工大学、北京科技大学等机构的研究人员对14个主流多模态大模型进行了全面测评，包括文字识别、场景文本 VQA、文档 VQA、关键信息抽取和手写数学表达式识别等任务。为了准确评估多模态大模型的OCR能力，研究人员构建了用于验证泛化能力的最全面的评估基准 OCRBench。研究结果表明，现有模型在常规文本、不规则文本、遮挡场景下的文本和艺术字方面取得了较好的性能，但在处理缺乏语义的字符组合时存在一定的局限。这项研究对于提高多模态大模型在OCR领域的应用能力具有重要意义。

更多AI工具，参考国内AiBard123，Github-AiBard123