“文心•跨模态大模型”又有新动态，支持内容分析时输出自定义标签库

最新推荐文章于 2024-08-13 10:09:13 发布

AGI大模型老王

最新推荐文章于 2024-08-13 10:09:13 发布

阅读量806

点赞数 18

文章标签： langchain AI大模型语言模型大模型人工智能

本文链接：https://blog.csdn.net/2401_85390073/article/details/140459817

版权

大模型真正的价值在于应用。

一、基本概念
AI 大模型具有强大的表征学习能力，能够在海量数据中提取有用的特征，为各种复杂任务提供解决方案。例如 GPT-4o、BERT 等模型的出现，不仅展示了大规模参数和复杂计算结构的优势，还在自然语言处理、图像识别等领域取得了令人瞩目的成果。同时，多模态大模型发展也为人工智能技术的多领域融合应用提供了可能。

1.跨模态大模型
跨模态大模型（Cross-Modal Large Models），是一种能够处理和理解来自不同模态（如文本、图像、音频、视频等）的数据，并在这些模态之间进行转换、关联和推理的深度学习模型。为了捕捉和表示各种模态数据中的丰富信息，这些模型通常具有庞大的参数规模和复杂的网络结构。

随着深度学习技术的不断发展和计算能力的提升，跨模态大模型的性能和效果越来越好，已经被广泛地投入使用。跨模态大模型可以实现图像描述生成、视觉问答、图像检索等任务，有效地关联和融合信息，为用户提供更加灵活便捷的检索方式。除此之外，跨模态大模型经常用于分析多媒体内容，如视频、音频等，提取其中的关键信息和特征。

2.内容分析
本文介绍的是“媒体内容分析”。它主要利用视觉、语音、知识图谱等 AI 技术，对视频和图片进行结构化分析，帮助平台实现个性化内容推荐，提升用户检索体验，促使业务有效转化。

百度的媒体内容分析 MCA（Media Content Analysis）借助百度积累的海量级数据，针对视频场景进行声音、人脸、图像、文字多维度分析，输出内容的泛标签，可以达到最优的识别效果。

在这里插入图片描述

3.结构化标签
结构化标签是一种用于明确标识和分类内容的标记形式。它不仅能帮助人类更好地理解内容，还可以让机器（如搜索引擎、自动化工具等）解析和索引信息，更准确地理解文本含义和上下文信息，提高任务处理效率，从而提高内容的可访问性，改善观众的搜索体验。

结构化标签通常遵循某种标准或规范，如 HTML5 的语义化标签（如

4.自定义文心标签
当系统中已有的标签无法满足实际需求时，只需在文心标签库里输入“标签名称＋提示词”的文本，系统就能为视频、图片打上对应的标签。这个能力的实现，使用了百度“文心•跨模态大模型”，因此通过这种方式打出的标签，被称为“文心标签”。

百度的内容分析系统，支持“系统内置文心标签”和“自定义文心标签”。前者由内容分析产品官方团队维护，用户可在模板中配置是否开启；后者由用户自主维护，需要用户手动创建标签库，并将其绑定在模板上。

二、超详细实操指南
登录百度智能云官网、进入产品页面后，点击分析管理>自定义库管理>自定义文心标签库，进入自定义文心标签库页。

在这里插入图片描述

Step 1 确定标签内容
根据自身的业务需求，梳理好期望系统输出的标签。我们推荐在以下场景内，使用自定义文心标签功能：

自然场景标签：如“暴雪天”“森林”“冰川”“极光”“星空”等自然场景。

人文场景标签：如“演出活动”“博物馆”“握手”“龙舟比赛”等社会文化生活中常见的场景、活动、动作。

常见实体标签：如“滑板”“蛋糕”“飞机”“二维码”“长城”等物体、地标。

Step 2 创建文心标签库
进入自定义库管理>文心标签库页面，点击“创建文心标签库”按钮，创建库。每个用户最多可创建 3 个库，单个库最多支持 300 个标签。

在这里插入图片描述

Step 3 添加标签与提示词
创建完自定义文心标签库后，进入标签库编辑页。点击“添加标签”，即可添加标签与提示词。

在这里插入图片描述

3.1 什么是提示词
标签是用户期望系统为图片、视频内容打上的标签，提示词是系统打标签的参考依据。

例如，“冬季运动”为标签，“滑冰、滑雪、冰壶、雪车”为提示词。系统在进行内容分析的过程中，如果发现某个图片或视频的画面内容与提示词一致，就会为其打上对应的标签。

在这里插入图片描述

3.2 怎么写提示词
如果标签可以概括提示词内涵，可以直接使用标签作为“提示词”，如“极光”。为了保证召回的效果，也可以使用近义词撰写多个提示词，如“舞台”。

在这里插入图片描述

如果标签涵盖的场景较为复杂，提示词要细化不同的场景。如标签“救援”“婚纱照”。

在这里插入图片描述

3.3 标签验证
为每个标签添加提示词后，可使用“标签验证”功能，检验提示词是否合适，以确保系统根据提示词匹配的图片与提示词表达的内涵一致。如遇到不一致的情况，可对提示词进行调整。

如“红包”这个标签，本意是想召回在线的各类红包营销活动、红包提示，但进行“标签验证”后发现，系统召回了“红色的手提包”。为了避免系统对红包产生歧义、以至在后续使用过程中，给很多图片错误打上“红包”标签，可以将提示词改写为“电子红包画面”“电子红包”“电子红包弹窗”。

修改提示词前的标签验证结果，如下图：

在这里插入图片描述

修改提示词后的标签验证结果，如下图：

在这里插入图片描述

类似的例子还有标签“平板”，本意是指平板电脑，提示词只写“平板”，召回的内容不符合预期，改为“平板电脑”后，与预期一致。

修改提示词前的标签验证结果，如下图：

在这里插入图片描述

修改提示词后的标签验证结果，如下图：

在这里插入图片描述

3.4 标签阈值
系统支持输入 0.26-0.35 之间的两位小数作为标签阈值，默认阈值为“0.32”。只有“置信度”大于阈值的标签，才会被输出。阈值将直接影响图片打标签的严格程度。

阈值较低（如 0.26 或 0.27）：意味着打标签规则相对宽松，图片更容易被打上当前标签。

阈值较高（如 0.34 或 0.35）：意味着打标签规则更加严格，只有高度符合提示词描述的图片才会被打上当前标签，因此被打上标签的图片数量可能会减少。

当阈值设定好之后，在“标签验证”时，也只有“置信度”大于阈值的图片，才会被召回，且最多可以召回 20 张图片。

Step 4 将标签库绑定至模板
编辑好标签和提示词后，可以在视频分析模板、图片分析模板的“自定义文心标签”项下，绑定对应的标签库。

视频分析模板：

图片分析模板：

Step 5 开始使用
通过 API 接口或内容分析产品控制台，选择已经绑定好文心标签库的模板，发起“图片内容分析”或“视频内容分析”，验证内容打标结果是否符合预期。如与预期不符，可增加或修改提示词。

图片内容分析：

视频内容分析：

三、总结
人工智能“百模大战”已经开启，借助大模型能力满足业务的自定义需求，已经成为大势所趋。文心跨模态大模型和自定义文心标签，突破了应用场景、产业生态、技术成本的限制，呈现出了蓬勃的生机与活力。

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获：👈
• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

AGI大模型老王

关注

18
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
“文心•跨模态大模型”又有新动态，支持内容分析时输出自定义标签库

大模型真正的价值在于应用。一、基本概念AI 大模型具有强大的表征学习能力，能够在海量数据中提取有用的特征，为各种复杂任务提供解决方案。例如 GPT-4o、BERT 等模型的出现，不仅展示了大规模参数和复杂计算结构的优势，还在自然语言处理、图像识别等领域取得了令人瞩目的成果。同时，多模态大模型发展也为人工智能技术的多领域融合应用提供了可能。1.跨模态大模型。
复制链接

扫一扫