万亿赛道！多模态大模型典型应用及潜在应用场景 2024

ai大模型应用开发

已于 2024-08-14 18:32:44 修改

阅读量2k

点赞数 9

文章标签：人工智能 llama 算法职场和发展面试神经网络自然语言处理

于 2024-08-10 09:59:02 首次发布

本文链接：https://blog.csdn.net/2401_85375298/article/details/141086562

版权

1 多模态大模型典型应用及潜在应用场景

多模态大模型+小模型，成为行业应用的必然趋势。人工智能要想真正规模化落地应用，核心在于要对落地行业有深刻的理解，找到真正懂行业场景和关键痛点的人来做，通过多模态大模型+小模型模式解决了长尾场景的各种痛点需求，特别是解决边际成本和碎片化问题，用户才愿意为此买单，实现 AI 模型赋能各行各业。

1.1 新闻媒体

2021 年 12 月 5 日，“全媒体多模态大模型”基于中科院自动化所“闻海”多模态媒体大数据和“紫东太初”三模态大模型核心技术积累，面向新华社技术局、媒体融合生产技术与系统国家重点实验室等部门的业务领域模型，构建“大数据+大模型+多模态”的多任务统一学习体系，以及“知识与数据混合驱动”的可信建模方式，从而实现对全媒体数据理解与生成的统一建模，打造全栈国产化媒体人工智能平台。

“紫东太初”三模态大模型兼具跨模态理解和生成能力，结合新华社在海量全媒体数据积累和媒体融合业务场景，共同打造“全媒体多模态大模型”，将加速推动 AI 在如视频配音、语音播报、标题摘要、海报创作等更多元媒体业务场景的应用。

1.2 对话客服

对话系统是一种模拟人类与人交谈的计算机系统，旨在能够与人类进行连贯通顺的对话，人机交互的方式主要包括语音/文本/图片，以及手势/触觉等其他方式。对话一般包括闲聊、知识型问答和任务型对话。

闲聊主要是为了拉近人与人之间的关系，建立信任；知识型问答主要根据提问进行一问一答，单轮对话，实现信息的提供；任务型对话，根据意图，联系上下文多轮对话，围绕意图进行对话，直至完成任务。作为企业客户关系管理的重要组成部分，客服是连接企业与客户的重要桥梁，极大地影响着企业的销售成果、品牌影响及市场地位。

但客服行业存在诸多痛点，客服人员流动性大、培训成本高、客服难以把控、大量重复型问题过度消耗人工客服，如何提升售前转化、如何优化客服流程、如何从客服数据中发现企业业务问题是重要的挑战。智能对话客服是基于特定业务领域和业务场景的对话系统，旨在使用最少代价快速解决用户的需求或实现目标，常使用的功能包括单轮问答、功能对话和人机协作。

智能对话客服是大模型应用的重要应用场景。大模型有助于实现更智能的对话客服服务应用。根据gpt3demo.com 统计，截至 2022 年 1 月份，基于 GPT-3 的应用已经有300+个，涵盖智能聊天机器人、翻译、游戏等领域。2021年 12月OpenAI开放 GPT-3 微调功能，开发人员可以使用微调来创建针对其应用程序和服务中的特定内容量身定制的模型，从而在任务和工作负载中实现更高的性能。新的 GPT-3 微调功能使客户能够训练 GPT-3 识别特定域范围内内容生成、分类和文本摘要等工作负载的特定模式。

2021 年 9 月 28 日，浪潮发布的全球最大规模人工智能巨量模型——“源 1.0”除了能够作诗赋词，还能对话、写对联、生成新闻、故事续写等，更重要的是，将应用于产业界智能运维、智能办公、智能对话等诸多杀手级场景。浪潮人工智能研究院发布的“源”单体模型参数量达 2457 亿，超越美国 OpenAI 组织研发的 GPT-3，模型参数规模为 2457 亿，训练采用的中文数据集达 5000GB，相比 GPT-3 模型1750 亿参数量和 570GB 训练数据集，“源 1.0”参数规模领先 40%，训练数据集规模领先近 10 倍。在语言智能方面，“源 1.0”表现最为优异。

其获得了中文语言理解评测基准 CLUE 榜单的零样本学习和小样本学习两类总榜冠军。在零样本学习榜单中，“源 1.0”在文献分类、新闻分类，商品分类、原生中文推理、成语阅读理解填空、名词代词关系 6 项任务中获得冠军；在小样本学习的文献分类、商品分类、文献摘要识别、名词代词关系等 4 项任务获得冠军。在成语阅读理解填空项目中，“源 1.0”的表现已超越人类得分。

2021 年 9 月 24 日，北京智源研究院发布了“悟道”大模型开发平台、大模型高效推理工具包 BMInf、全新升级的 AI 文图绘画大师CogView 和实现大模型群聊的对话模型 EVA，此外还发布了“悟道 2.0”赋能产业应用案例：冬奥会语音播报数字人和 OPPO 小布助手问答系统。

小布助手是 OPPO 旗下开放式对话虚拟语音助手，OPPO 小布技术总监杨振宇在现场表示，融合悟道大模型的生成式问答系统，解决了小布助手开放式对话的长尾问题，单条回答建设成本降低 99%。2021 年 9 月 20 日，百度发布了业界首个百亿级参数的预训练对话生成模型 PLATO-XL,是当前最大规模的对话生成模型，通过测试评估，PLATO 在多轮对话回复中的逻辑性、知识广度、对话答复趣味性等维度，都达到了新的高度。

百度 PLATO-XL 的问世，是开放域对话在大模型上的一次深入探索。PLATO 模型也已落地到实际应用中，目前小度旗下智能产品系列、百度虚拟人等多个产品的背后都有 PLATO的身影，陪伴用户越久，就越能懂得用户所想和所说。PLATO-XL 斩获了知识型任务口语对话赛道两项任务的全部冠军，并以大幅度优势领先第二名。

1.3 智慧城市

智慧城市是指利用各种资讯科技或创新理念，整合城市的组织系统和服务，以提升资源运用的效率，优化城市管理和服务，改善市民生活素质。智慧城市把新一代信息技术充分运用在城市的各行各业之中，属于城市信息化高级形态，实现信息化、工业化与城镇化深度融合，有助于缓解“大城市病”，提高城镇化质量，实现精细化和动态管理，并提升城市管理成效和改善市民生活质量。

2021 年 7 月 11 日在人工智能大会上，华为发布了《华为云 AI赋能智慧城市白皮书》，并阐述了盘古大模型在智慧城市方面的应用。阿里巴巴的多模态大模型M6已经被应用于Talk2Car任务中。具体地，用户通过给出一个指令，比如说在前面那个绿车前面停下来，就可以找到那个车。2021 年 12 月 20 日，鹏城实验室组织的新一代人工智能院士高峰论坛探讨和分享了视觉预训练大模型及其在智慧城市中的应用。

1.4 生物科技

DeepMind 联合谷歌旗下生物科技公司 Calico，开发了一种结合DNA 远端交互进行基因表达和染色质状态预测的神经网络架构Enformer，能够一次编码超过 20 万个碱基对，大幅提高了根据 DNA序列预测基因表达的准确性。为进一步研究疾病中的基因调控和致病因素，研究人员还公开了他们的模型及其对常见遗传变异的初步预测。相关研究成果于 2021 年 10 月 4 日发表在《自然·方法》杂志上。

美国哈佛医学院和英国牛津大学的研究人员合作开发出一款可准确预测致病基因突变的 AI 模型“EVE”，已预测出 3200 多个疾病相关基因中的 3600 万个致病突变，且对 25.6 万个至今意义不明的基因突变是“致病”还是“良性”做出归类。未来，该 AI 模型可帮助遗传学家和医生更精确地制定诊断、预后和治疗方案。相关研究成果于 2021 年 10 月 27 日发表在《自然》杂志上。

1.5 智能工厂

服饰行业中，阿里巴巴的多模态大模型 M6 已经被应用于犀牛新制造中并产生了包括文到图生成等的案例。具体地，传统服饰行业需要请设计师来设计衣服，然后再到线上测款，需要一个非常长的时间流程。

但是基于文到图生成技术，可以直接把流行的款式描述输入M6 模型来生成款式图片。这种方式把原来很长的时间流程缩短十倍以上，目前已投产，并在双十一的时候和三十多家服饰商家合作。

华为的盘古药物分子大模型将输入的图结构对应于化学表达式，可以用来生成新的分子结构，或者对新的分子体进行优化。具体地，盘古药物分子大模型基于图网络和 Transformer 架构，要求输入为分子结构，输出为相应的化学表达式，在大概 16 亿的分子数据上进行预训练。预训练之后，可以接受不同的输入，然后显示相应药物的属性，例如分子的活性、毒性等。

1.6 金融科技

多模态大模型 M6 在金融领域可以实现大块文本续写和摘要，目前的应用情况显示其在该任务上已经是一种比较可靠的方法。另外，M6 目前已经在支付宝搜索里上线，替代原来的基线模型 BERT。

1.7 民生服务

阿里巴巴的多模态大模型 M6 已经产生许多民生服务应用。首先，M6 除了提供文到图生成的能力，还被改进可以根据交互需求不断完善结果。例如给定一件衣服，客户希望只保留领子，然后进一步定制。M6 改进后就可以每次迭代只生成一部分的 token。随着迭代越来越多，生成结果也会越来越好。

另外，M6 还被用于营销文案的生成，传统方法需要十万到百万级别训练数据才能达到工业级可用，M6 只需要使用原来 5%左右的样本，通过率就可以达到百分之八十五以上。这得益于多模态，即输入不仅包括题目，还可以输入图，这样大大增加了模型预测效率。

M6 模型还被应用于生成推荐理由，已经在阿里小蜜上线。最后，在数字人应用的淘宝直播中，会通过 ASR（语音识别）把主播的话转化成文字，需要把主播说话时非常口语化的部分去掉，这里就可以应用 M6，并已经上线。

华为的多模态模型除了在图文、音视频等数据实现检索，还在做中英、中阿还有英阿的一些小语种翻译任务。具体采用多塔模型，即基于之前训练好的单模态模型进行实现。例如，有一个英文的大模型，一个中文大模型，一个阿语的大模型，然后有很多的图像数据，则可以在这四个不同数据里面，相互地去做检索。

近些年，爱奇艺也在做视频摘要，通过剧情简介或者剧本的文字描述，利用大模型来检索对应的镜头，进一步可以通过脚本分镜剪辑的方法来高效生成短视频。

1.8 其他应用

消除微运动对于实现离子阱量子计算机的工程化非常重要。中山大学物理与天文学院罗乐教授研究团队通过人工神经网络技术与射频微波-自发辐射光子关联技术，实现了离子阱中量子比特微运动控制的自动化处理，这是国际上首次把神经网络技术应用于离子阱量子比特的微运动控制。相关成果已于 2021 年 9 月 29 日在线发表于《应用物理快报》杂志上。

美国康奈尔大学的一项研究显示，与人工智能相结合的量子计算能够解决电网中人类难以注意到的各种疑难杂症，并在几秒内给出故障的解决方法。相关研究成果预计将于 2021 年 12 月发表在《应用能源》（Applied Energy）杂志上。

2021 年 9 月 29 日，英国顶级 AI 研究机构 DeepMind 与气象局合作撰写并在《自然》杂志上发表一篇有关天气预报的论文，指出人工智能有望在不断变化的环境中帮助人们应对决策挑战，为降雨临近预报开辟新途径。

2021 年 9 月 15 日，英国剑桥大学科学家与来自世界各地的 20家医院及医药公司联手，首次利用人工智能与机器学习技术，在全球范围内预测新冠肺炎患者的氧气需求，相关研究发表在《自然—医学》期刊上。

2021 年 8 月 17 日，三星宣布正在使用新思科技（Synopsys）的人工智能软件 DSO.ai 设计其 Exynos 芯片。除三星外，新思科技竞争对手 EDA 制造商楷登电子（Cadence），以及包括谷歌、英伟达和 IBM在内的芯片制造商，也在涉足人工智能驱动的芯片设计。人工智能正在改变芯片的设计方式。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述