腾讯和OpenAI盯上了同一条赛道

最新推荐文章于 2024-06-09 21:47:45 发布

加百力

最新推荐文章于 2024-06-09 21:47:45 发布

阅读量974

点赞数 22

分类专栏：业界新闻文章标签：人工智能大数据

本文链接：https://blog.csdn.net/Gabriel100yi/article/details/138942387

版权

329 篇文章 0 订阅

订阅专栏

图为：腾讯文生图负责人芦清林

AI多模态大模型持续火热，腾讯也出招了

5月14日，腾讯宣布旗下的混元文生图大模型全面升级，该模型采用了与Sora一致的DiT架构（Diffusion With Transformer），不仅可支持文生图，也可作为视频等多模态视觉生成的基础。

在腾讯方面看来，DiT架构很可能成为下一代主流视觉生成架构。未来，DiT架构很可能会成为文生图、生视频、生3D等多模态视觉生成的统一架构。

这是业内首个中文原生的DiT架构文生图开源模型。它希望借此填补文生图开源社区DiT架构空白，让更多开发者参与其中，以更快追赶上国外先进闭源多模态大模型。

腾讯也能在这个过程中，借着大模型重构自身业务，为现有业务赋能。从最新财报来看，大模型已对腾讯的业务产生积极作用。

此次腾讯升级的混元文生图大模型参数量15亿，支持中英文双语输入，支持最长256个字符（业界主流是77个）的图片生成指令，支持用户文本改写以及多轮绘画。

过去几年，主流的文生图模型以基于U-Net架构的扩散模型为主，然而U-Net模型容易陷入性能瓶颈，面临着扩展性问题，DiT架构主要是替换了模型中的U-Net架构的部分。Transformer架构只要算力与数据量足够，可以无限扩展。

基于Transformer架构的模型似乎更有潜力让文生图模型变得更聪明。因此，混元文生图从 2023 年7月起就开始做研发，全链路自研，从零开始训练。今年初，混元文生图大模型已全面升级为DiT架构。

据华尔街见闻了解，结合腾讯内部广告等真实场景需求优化与架构升级，最新的腾讯混元文生图大模型，对比基于U-Net架构的模型，视觉生成整体效果提升20%，同时在多轮对话、细粒度语义理解、中国元素、真实人像生成等细分场景下效果有明显提升。

腾讯文生图负责人芦清林指出，与Dalle3、SD3、Midjorney这三个业界知名的闭源文生图模型相比，混元文生图大模型排在Dalle3和Midjorney之后，在所有开源文生图模型中，混元文生图大模型则表现最好。

芦清林进一步指出，在混元文生图大模型开源之前，开源和闭源的文生图技术能力差距是在逐渐拉大的，腾讯希望通过此次开源能够把这个差距缩小。

芦清林也透露，今年初OpenAI推出Sora就是因为他们有了一个很强的DiT架构模型，此次混元文生图大模型开源有一个初衷，就是希望通过把DiT架构模型拿出来，让业界想做文生视频的同行可以快速地将这一技术拓展到视频上去，可以帮助大家节省很多时间。

腾讯一直是开源技术的支持者，过去已开源了超 170 个项目，均来源于腾讯真实业务场景，覆盖微信、腾讯云、腾讯游戏、腾讯AI、腾讯安全等核心业务板块。

芦清林表示：“腾讯混元文生图的研发思路就是实用，坚持从实践中来，到实践中去。此次把最新一代模型完整开源出来，是希望与行业共享腾讯在文生图领域的实践经验和研究成果，丰富中文文生图开源生态，共建下一代视觉生成开源生态，推动大模型行业加速发展。”

开源证券指出，国内外AI多模态大模型的持续突破及后续商业化，或大幅降低广告、课件、短剧、动画、剧集、电影等制作成本，提高IP开发、广告营销及教学效率，扩大商业化空间。

去年9月发布混元大模型时，腾讯就十分强调实用性，称混元大模型是“从实践中来，到实践中去”的实用级大模型。在混元文生图大模型开源后，不排除腾讯也会将大语言模型开源。

当然，开源或闭源都只是不同技术路线的选择，最终目的还是商业化应用。按照腾讯的规划，腾讯做混元大模型一定先是服务腾讯本身，再是通过腾讯云向产业规划，C端的应用则还在探索阶段。

芦清林对华尔街见闻表示，混元文生视频的商业化探索不算紧迫，因为腾讯内部的业务场景非常丰富，能给自身业务赋能已经很好。至于to C端的商业化，还没有明确的计划，但不排除会尝试。

在5月14日晚腾讯一季度业绩说明会上，腾讯管理层也表示，腾讯在积极创造和测试不同的AI产品，看看哪些产品对公司现有的产品有意义。随着时间的推移，这些产品将在微信等拥有大量用户的平台上推出。

据腾讯披露，目前已有超过400项腾讯业务和应用场景，接入腾讯混元大模型内测。腾讯混元文生图能力则被广泛用于素材创作、商品合成、游戏出图等多项业务及场景中。

国内外AI“军备竞赛”战局正酣，但这是一场马拉松比赛。在等待“AI的iPhone时刻”真正来临前，腾讯选择了一条更扎实的路，让AI成为自己业务的“倍增器”，面对这场技术变革，也会更加从容。

关注

专栏目录