AI专题:AI+MR引领变革,看好技术迭代与应用场景落地

今天分享的是AI系列深度研究报告:《AI专题:AI+MR引领变革,看好技术迭代与应用场景落地》。

(报告出品方:东北证券股份有限公司)

报告共计:56

AI:大模型能力持续迭代,应用商业化落地加速

模型端:更多模态、更加垂直

目前海外大模型格局:闭源模型OpenAl+Google双龙头,Meta持续耕耘开源模式,垂类模型独树一帜。目前海外已经形成较为清晰的pcnAl、Giooglc 双龙头+Mcta开源+垂类繁荣的生态趋势。OpenAl、Google是基于Transformer衍生出GPT与BERT两大知名NLP模型族,其性能暂时领先其他大厂模型(如AWS的BLOOM),两大巨头在闭源模型领域进行激烈PK。

Meta 通过开源方式快速追赶,7月发布最新开源大模型[LaMA2,使用2万亿tokens:训练,上下文长度翻倍,实现了更强大的表现能力和更广泛的应用场景。LLaMA+LORA 模式是当前开源ILM中最活跃的生态:AWS与HuggingFace 基千LLM生态展开合作。LLaMA的出现验证了GPT之外的另一条路径,即更大规模的训练数据+更优的算法调试,降低模型对参数和算力的依赖。

大模型能力持续迭代,多模态是主要趋势。以头部的大模型厂商OpenAl和Google为例,OpenAl推出的GPT模型经历了GPT3.5-GPT-4-GPT-4V的变化,GPT-4V增强了视觉提示功能,在相关样本观察中,GPT-4V在处理任意交错的多模态输入方面表现突出。2023年11月0penAI开发者大会发布了GPT4Turbo以及GPTS,其在多模态方面开放了DALL·E3、具有视觉功能的GPT-4Turbo、 TTS的 API接口。GooglePaLM-2日前参数量已经达到3400亿,近期推出全新大语言模型Gemini1.0,能够准确识别周围环境,理解复杂的书面和视觉信息,支持语音、图片、视频、手势等多模态的输入和输出。

相比大语言模型,多模态模型更接近于人类接收、处理、表达信息的方式,是未来人工智能模型演进的重点方向。AI大模型将从支持文本、图像、音频、视频等单一模态下的单一任务,逐渐发展为支持多种模态下的多种任务。后续大模型的比拼重点将不再是单一模态下参数量的提升,而是转向多模态信息整合和深度挖据,通过预训练让模型更精准地捕捉和理解不同模态信息之间的关联,同时还拥有较快的相应速度。

Pika、HeyGen等AI文生视频应用陆续出圈,再次验证了多模态技术的不断进步与成熟。HeyGen从Al孙燕姿出图,到HeyGen、Pika、Runway 和Stable Video Difiusion等AI文生视频工具的落地,均验证了多模态技术的逐步选代。以Hey(icn为例,其只需要三个步骤即可完成文生视频,拥有文字翻译、唇形拟合、音色模仿等能力是多模态能力的集中体现。Pika1.0支持3种视频生成方式:文生视频、图生视频、视频转视频,同时支持视频之间不同风格转换、扩展格式、区域修改、视频扩展等。从试用测评报告来看,Pika10通过输入简单的文本或图像便创建出优质的视频,尤其在 3D动画方面表现亮眼,此外,在视频扩展的一致性&合理性、区域修改功能的稳定性也同样表现较好。

国内大模型百花齐放,政策上采取备案制对大模型进行监管。在以penAl为首的海外大厂推出大模型及对话类产品后,国内互联网大厂(腾讯、百度、字节、京东、阿里、华为、360等)、传统AI公司(商汤、讯飞)以及科研国家队(智源研究院、中科院自动化所、智谱A1)纷纷入局大语言模型的研发,其主要源于以下需求:

1)语言:GPT基于海量数据进行训练,而训练数据仍以英文为主,中文的比重很小,其会影响ChatGPT 在国内的适用程度;

2)连接:ChalGPT目前仍屏蔽中国大陆对网站的访问,而通过第三方转接则会带来合规、连接稳定性和速度等诸多问题;

3)安全:国内企业存在较强的自主可控需求,私域部署的方式或更加适用于国内环境。7 月,国家网信办联合国家发展改革委、教有部、科技部、工业和信息化部、公安部、广电总局公布《生成式人工智能服务管理暂行办法》,自8月15日起施行。该文件提到,采取有效措施鼓励生成式人工智能创新发展,对生成式人工智能服务实行包容审慎和分类分级监管。截至目前,公开宣布通过备案的大模型共20家,包括百度、字节、智谱A1、MiniMax等,后续腾讯、讯飞等大模型也将陆续通过备案,面向公众开放注册、提供服务。

从国内大模型选代方向来看,多模态亦是主要趋势。在penA1于九月底宣布ChalGPT实现联网、支持多模态更新,包括图片、语音交流以及文字互转后,国内AI大模型和行业应用自十月以来也持续升级。随着后续AI大模型进一步朝多模态方向发展,行业变革和创新仍在不断进行,中国科学院自动化研究所和武汉人工智能研究院推出新一代大模型:全模态大模型“紫东.太初2.0”版本:10月24日,科大讯飞星火认知大模型 V3.0发布,实现文本生成、语言理解、知识问答、逻辑推理、数学、代码、多模态七大能力提升:10月26日,腾讯宣布混元大模型迎来全新升级,并正式对外开放“文生图”功能:10月27日,智诺AI推出全自研的第三代基座大模型 ChalGLM3,其多模态理解、代码增强、网络搜索等模块大幅增强。11月底,阿里推出了Animale Anyone,新加坡国立大学和字节跳动则联合推出了MagicAnimmate,均是基于iusionmodels的文生视频模型。

应用端:开发门槛降低,商业化落地加速

GPTS 大幅降低用户开发AI应用的门槛。GPTS是用户为特定目的创建的ChalGPT版本。GPTs无需代码,仅通过自然语言交互即可创建,任何人都可以创建量身定制的GPTS用于日常生活、特定任务、工作或家庭中获得更多便利以提升效率。GPTS创造性的促进人工智能从工具向AIAgent形态转变,应用开发门槛大幅降低,越来越多的A原生应用会不断涌现。

此外,模型调用成本不断降低和开源模型同样降低了开发门槛。3月,ChaIGPT开放了API模型GPT-3.5-turbo,价格为0.002美元/输出1000tokens,成本降低了 90%;在月〇penAI开发者大会上,GPT-4Turbo的inputtokens与output tokens 的单价相较于GPT4分别下降了3倍与2倍,目前价格分别为1美分/1,000inputtokens和3美分/1.000outputtokens。开源模型方面,Mela 7月发布最新开源大模型Llama2,整体性能与GPT-3.5相近,降低了开发者门槛。阿里云8月3日宣布,阿里云开源通义千问 70 亿参数模型,包括通用模型 Qven-7B 和对话模型 Qwen-7B-Chat,两款模型均已上线魔搭社区,开源、免费、可商用。

国内来看,AI应用开发门槛亦也在逐步降低。昆仑万维推出的天工SkyAgents是国内领先的AIAgent 开发平台,具备从感知到决策,从决策到执行的自主学习和独立思考能力。用户可以通过自然语言构建自己的单个或多个“私人助理”,无需代码编程,即可在几分钟之内部署属于自己的 AIAgents,完成行业研究报告、单据填写、商标设计、甚至健身计划、旅行航班预订等多项私人定制需求。同时,豆包在App端也推出了 AI智能体生成器,用户可以自定义AlAgcnts。国内成本看,文心一言最新4.0模型也推出了限时优惠,降低应用开发成本。

报告共计:56

  • 21
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值