2024年AIGC行业研究:多模态大模型与商业应用

2024年2月,OpenAI发布其首款视频生成模型Sora,用户仅需输入一段文字即可生成长达一分钟场景切换流畅、细节呈现清晰、情感表达准确的高清视频,与一年前的AI生成视频相比,在各维度均实现了质的提升。这一突破再次将AIGC推向大众视野。AIGC即通过大量数据训练而成的人工智能系统,可根据用户的个性化指令生成文本、音频、图像、代码等内容。自2022年频频出圈的ChatGPT推出以来,生成式AI在游戏、影视、出版、金融、数字人等多个应用场景中展现出巨大潜力和价值。据不完全统计,2023年全球AIGC产业融资超1900亿元,几乎每个月都有该赛道公司获得融资。例如,2023年6月,Runway获得谷歌、英伟达、Salesforce等投资者的新一轮1.41亿美元的融资;Runway的强劲对手Pika则用短短半年时间,连续完成三轮融资,总融资额达5,500万美元。

本文将基于AIGC产业生态现状和技术发展路径,深入分析AIGC商业化应用的方向与产业发展趋势。

01、产业生态概览

产业生态图谱:以数据板块为代表的基础层有待突破,模型层占核心地位,应用层遍地开花

整体而言,目前AIGC产业生态可划分为三部分:上游基础设施层、中游模型层和下游的应用层。其中,基础设施层包括数据、算力和模型开发训练平台/计算平台等算法基础平台;模型层包括底层通用大模型、中间层模型和开源社区;应用层则在文本、音频、图像、视频四类模态的基础上,发展出了策略生成和跨模态生成,并在金融、数据分析、设计等多个行业实现了商业应用。

在这里插入图片描述
基础设施层:数据服务板块成产业新增量,算力和算法产业生态格局较为确定

AIGC对训练数据的体量、所属行业领域、对应垂直业务和颗粒度都有极高的要求。对于预训练大模型而言,多模态的数据集至关重要。此外,为了使训练问答和产出达到预期效果,数据提供方需要保障数据的即时性和有效性。目前,全球规模最大的开源跨模态数据库是LAION-5B,全球首个亿级中文多模态数据集“悟空”则是由华为诺亚方舟实验室开源。

自各类大模型进入大众视野以来,其tokens的大小限制一直困扰着诸多开发者和使用者,以GPT为例,当使用者向其发送命令时,程序会自动将最近几次对话记录(基于对话的字数限制在4096 tokens内)通过prompt组合成最终的问题,并发送给ChatGPT。一旦使用者的对话记忆超过了4096 tokens,那么它就难以将之前的对话内容纳入到逻辑思考范围,这就导致目前GPT在面对比较复杂任务时容易出现AI幻觉。

在此背景下,开发者们不断寻求新的解决方案,向量数据库就是热门解决方案之一。向量数据库的核心概念是将数据转换成向量存储在数据库中;在使用者输入问题时,也将问题转换成向量,然后在数据库中搜索最相似的向量和上下文,最后将文本返回给用户。这样不仅可以大大减少GPT的计算量,从而提高响应速度,更重要的是降低成本、支持多模态数据,并绕过了GPT的tokens限制。随着Weaviate MongoDB等海外向量数据库成为资本关注的对象,国内腾讯、京东等大厂也纷纷在此领域着手布局。

相比于数据板块,国内算力和算法基础领域供给端仍以头部企业为主,初创型企业机会相对较少。但以人工智能计算架构为基础,为应用层提供所需算力服务、数据服务和算法服务的智算中心已成为新型公共算力基础设施之一。

如AIDC OS,是九章云极DataCanvas自主研发的智算专属AI操作系统。同时面向智算中心大规模算力和大中型企业内部智算集群,输出智算资源的纳管、统一调度,智算业务的业务运营支撑,以及AI模型的构建、训练和推理等核心能力。AIDC OS将算力运营方的运维能力从裸算力设备运维提升至AI大模型运维能力,加之对各类异构算力和AI应用的开放兼容,AIDC OS成功实现了算力资产附加价值的有效提升。

模型层:国内市场玩家多集中在底层通用大模型,中间层玩家较少

AIGC底层通用大模型可分为开源和闭源两类。闭源模型一般通过付费的API或者有限的试用接口来访问,国外闭源模型包括OpenAI的GPT模型、谷歌的PaLM-E模型等。国内闭源模型厂商起步较晚,但在多模态交互能力和与智能硬件结合方面的能力提升迅速。如近期李未可科技研发的WAKE-AI大模型,具有文本生成、语言理解、图像识别及视频生成等多模态交互能力,是李未可科技专为未来 AI+终端,定向优化研发的多模态AI大模型平台。目前WAKE-AI大模型暂时针对李未可科技旗下的智能终端——AI眼镜、XR眼镜上使用。未来李未可科技将开放该AI平台,即让更多开发者以低代码或无代码的方式,在各类终端上快速低成本的部署或定制多模态AI。

开源模型采用公开模型的源码与数据集,任何人都可以查看或修改源代码,如Stability AI开源Stable Diffusion,Meta开源Llamax,xAI开源Grok-1,中国智源开源Aquila。比较而言,闭源模型的优势在于前期投入成本低、运行稳定;开源模型则基于私有化部署拥有较高的数据隐私安全保障,并且迭代更新速度较快。目前国内多数大模型开发企业或机构致力于开发跨模态大模型,如腾讯的混元AI和百度的文心大模型,都可进行跨模态生成,但整体尚未普遍形成开源生态。

中间层模型市场玩家大致可分为垂类大模型和中间集成商两类。其中,垂类大模型对于垂直行业的业务理解和资源

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值