AI专题：AI+MR引领变革，看好技术迭代与应用场景落地

最新推荐文章于 2024-08-22 07:51:42 发布

科技挖掘猫

最新推荐文章于 2024-08-22 07:51:42 发布

阅读量1k

点赞数 21

文章标签：人工智能 mr

本文链接：https://blog.csdn.net/kjwjm002/article/details/136058212

版权

今天分享的是AI系列深度研究报告：《AI专题：AI+MR引领变革，看好技术迭代与应用场景落地》。

（报告出品方：东北证券股份有限公司）

报告共计：56页

AI：大模型能力持续迭代，应用商业化落地加速

模型端：更多模态、更加垂直

目前海外大模型格局:闭源模型OpenAl+Google双龙头,Meta持续耕耘开源模式，垂类模型独树一帜。目前海外已经形成较为清晰的pcnAl、Giooglc 双龙头+Mcta开源+垂类繁荣的生态趋势。OpenAl、Google是基于Transformer衍生出GPT与BERT两大知名NLP模型族,其性能暂时领先其他大厂模型(如AWS的BLOOM)，两大巨头在闭源模型领域进行激烈PK。

Meta 通过开源方式快速追赶，7月发布最新开源大模型[LaMA2，使用2万亿tokens:训练，上下文长度翻倍，实现了更强大的表现能力和更广泛的应用场景。LLaMA+LORA 模式是当前开源ILM中最活跃的生态:AWS与HuggingFace 基千LLM生态展开合作。LLaMA的出现验证了GPT之外的另一条路径，即更大规模的训练数据+更优的算法调试，降低模型对参数和算力的依赖。

大模型能力持续迭代，多模态是主要趋势。以头部的大模型厂商OpenAl和Google为例，OpenAl推出的GPT模型经历了GPT3.5-GPT-4-GPT-4V的变化，GPT-4V增强了视觉提示功能，在相关样本观察中，GPT-4V在处理任意交错的多模态输入方面表现突出。2023年11月0penAI开发者大会发布了GPT4Turbo以及GPTS，其在多模态方面开放了DALL·E3、具有视觉功能的GPT-4Turbo、 TTS的 API接口。GooglePaLM-2日前参数量已经达到3400亿,近期推出全新大语言模型Gemini1.0,能够准确识别周围环境,理解复杂的书面和视觉信息，支持语音、图片、视频、手势等多模态的输入和输出。

相比大语言模型，多模态模型更接近于人类接收、处理、表达信息的方式，是未来人工智能模型演进的重点方向。AI大模型将从支持文本、图像、音频、视频等单一模态下的单一任务，逐渐发展为支持多种模态下的多种任务。后续大模型的比拼重点将不再是单一模态下参数量的提升，而是转向多模态信息整合和深度挖据，通过预训练让模型更精准地捕捉和理解不同模态信息之间的关联，同时还拥有较快的相应速度。

Pika、HeyGen等AI文生视频应用陆续出圈，再次验证了多模态技术的不断进步与成熟。HeyGen从Al孙燕姿出图,到HeyGen、Pika、Runway 和Stable Video Difiusion等AI文生视频工具的落地，均验证了多模态技术的逐步选代。以Hey(icn为例，其只需要三个步骤即可完成文生视频，拥有文字翻译、唇形拟合、音色模仿等能力是多模态能力的集中体现。Pika1.0支持3种视频生成方式:文生视频、图生视频、视频转视频,同时支持视频之间不同风格转换、扩展格式、区域修改、视频扩展等。从试用测评报告来看，Pika10通过输入简单的文本或图像便创建出优质的视频，尤其在 3D动画方面表现亮眼，此外，在视频扩展的一致性&合理性、区域修改功能的稳定性也同样表现较好。

国内大模型百花齐放，政策上采取备案制对大模型进行监管。在以penAl为首的海外大厂推出大模型及对话类产品后，国内互联网大厂(腾讯、百度、字节、京东、阿里、华为、360等)、传统AI公司(商汤、讯飞)以及科研国家队(智源研究院、中科院自动化所、智谱A1)纷纷入局大语言模型的研发，其主要源于以下需求：

1)语言：GPT基于海量数据进行训练，而训练数据仍以英文为主，中文的比重很小，其会影响ChatGPT 在国内的适用程度；

2)连接：ChalGPT目前仍屏蔽中国大陆对网站的访问，而通过第三方转接则会带来合规、连接稳定性和速度等诸多问题；

3)安全：国内企业存在较强的自主可控需求，私域部署的方式或更加适用于国内环境。7 月，国家网信办联合国家发展改革委、教有部、科技部、工业和信息化部、公安部、广电总局公布《生成式人工智能服务管理暂行办法》，自8月15日起施行。该文件提到，采取有效措施鼓励生成式人工智能创新发展，对生成式人工智能服务实行包容审慎和分类分级监管。截至目前，公开宣布通过备案的大模型共20家，包括百度、字节、智谱A1、MiniMax等，后续腾讯、讯飞等大模型也将陆续通过备案，面向公众开放注册、提供服务。

从国内大模型选代方向来看，多模态亦是主要趋势。在penA1于九月底宣布ChalGPT实现联网、支持多模态更新，包括图片、语音交流以及文字互转后，国内AI大模型和行业应用自十月以来也持续升级。随着后续AI大模型进一步朝多模态方向发展，行业变革和创新仍在不断进行，中国科学院自动化研究所和武汉人工智能研究院推出新一代大模型:全模态大模型“紫东.太初2.0”版本:10月24日，科大讯飞星火认知大模型 V3.0发布,实现文本生成、语言理解、知识问答、逻辑推理、数学、代码、多模态七大能力提升:10月26日，腾讯宣布混元大模型迎来全新升级，并正式对外开放“文生图”功能:10月27日，智诺AI推出全自研的第三代基座大模型 ChalGLM3，其多模态理解、代码增强、网络搜索等模块大幅增强。11月底，阿里推出了Animale Anyone，新加坡国立大学和字节跳动则联合推出了MagicAnimmate，均是基于iusionmodels的文生视频模型。

应用端:开发门槛降低，商业化落地加速

GPTS 大幅降低用户开发AI应用的门槛。GPTS是用户为特定目的创建的ChalGPT版本。GPTs无需代码，仅通过自然语言交互即可创建，任何人都可以创建量身定制的GPTS用于日常生活、特定任务、工作或家庭中获得更多便利以提升效率。GPTS创造性的促进人工智能从工具向AIAgent形态转变，应用开发门槛大幅降低，越来越多的A原生应用会不断涌现。

此外，模型调用成本不断降低和开源模型同样降低了开发门槛。3月，ChaIGPT开放了API模型GPT-3.5-turbo,价格为0.002美元/输出1000tokens,成本降低了 90%;在月〇penAI开发者大会上，GPT-4Turbo的inputtokens与output tokens 的单价相较于GPT4分别下降了3倍与2倍，目前价格分别为1美分/1,000inputtokens和3美分/1.000outputtokens。开源模型方面，Mela 7月发布最新开源大模型Llama2,整体性能与GPT-3.5相近，降低了开发者门槛。阿里云8月3日宣布，阿里云开源通义千问 70 亿参数模型，包括通用模型 Qven-7B 和对话模型 Qwen-7B-Chat,两款模型均已上线魔搭社区，开源、免费、可商用。

国内来看，AI应用开发门槛亦也在逐步降低。昆仑万维推出的天工SkyAgents是国内领先的AIAgent 开发平台，具备从感知到决策，从决策到执行的自主学习和独立思考能力。用户可以通过自然语言构建自己的单个或多个“私人助理”，无需代码编程,即可在几分钟之内部署属于自己的 AIAgents,完成行业研究报告、单据填写、商标设计、甚至健身计划、旅行航班预订等多项私人定制需求。同时，豆包在App端也推出了 AI智能体生成器，用户可以自定义AlAgcnts。国内成本看，文心一言最新4.0模型也推出了限时优惠，降低应用开发成本。