会议交流 | AI Agent 知识工程及在真实场景落地探索

图片

如何优化 Function Call?

RAG、ChatBI、Agent 知识工程怎么搞?

Data Agent、具身 Agent 是未来趋势吗?

AI Agent 在真实场景的最佳实践?

AI Agent 有哪些协同新范式?

5月17日,09:20-21:00,在 DataFun 举办的「AI Agent 技术峰会」将邀请20余位AI Agent一线专家学者,就AI Agent的知识工程、端侧应用、Data Agent、具身 Agent、人机协同、最佳实践等话题进行深度分享,感兴趣的小伙伴,欢迎识别二维码,免费报名收看:

识别二维码,免费报名

峰会议程:

详细介绍:

① Data Agent 论坛

出品人:范志东 蚂蚁集团 TuGraph 开源负责人

个人介绍:范志东,蚂蚁图计算开源负责人&布道师。负责 TuGraph 的开源技术与社区,致力于「#Graph+#AI」技术探索。TuGraph/GeaFlow/Chat2Graph/DB-GPT/OSGraph Maintainer、《自己动手构造编译系统》作者。先后就职于腾讯、阿里云、蚂蚁,从事大数据平台、云数据库、图计算相关的产品设计和技术建设。在分布式计算、数据安全管理、数据中台架构、开源布道等领域有丰富的开发和实践经历。

演讲主题:Chat2Graph:符号主义增强的图原生智能体系统

演讲提纲:

  • 图计算看到的人工智能

  • 图智互融的开源技术探索历程

  • 设计图原生的智能体系统

听众收益:

  • 图计算与大模型的技术融合价值

  • 智能体系统的建设与优化思路

李飞 博士 数势科技 AI 负责人

个人介绍:负责数势科技智能算法的开发,包括 LLM Agent,RAG,内容推荐,文本生成,知识图谱挖掘等算法技术。英国纽卡斯尔大学博士,在智能算法领域学术与工作经验丰富。在学术研究方面,拥有10项智能算法相关专利并发表4篇国际期刊,曾主导由欧洲玛丽居里计划资助的国际项目,在研究期间,共发表了3篇期刊文章、1篇会议文章和1篇 Chapter;在工作方面,曾任职京东零售数据中台,负责人工智能技术在营销领域的相关落地,多次获得优秀员工及集团战略项目奖,曾获 HICOOL 全球创业大赛二等奖。

演讲主题:Data Agent 在企业决策分析中的技术创新:Multi-Agent 架构与深度推理 

演讲大纲:

1. 企业决策分析与 Data Agent 的关系:

  • 传统数据分析方法的挑战与痛点

  • Data Agent 系统的优势与创新

2. Data Agent 的定义、分类与价值:

Data Agent 是一个基于多智能体(Multi-Agent)架构的平台,设计旨在让各个智能体(Agent)处理特定数据任务,并实现自动分析和决策。Data Agent 不仅具备传统数据处理功能,还能执行推理、决策优化等智能任务,极大地提高了数据分析的智能化与自动化水平,从而为企业决策提供更精准、实时的支持。

3. 核心技术与架构细节:

  • 多智能体架构(Multi-Agent System)

Data Agent 系统通过将复杂决策任务分解为多个智能Agent,确保每个Agent专注处理特定的子任务。这样设计不仅提升了系统的灵活性与扩展性,还优化了决策过程中的资源配置与调度效率。

  • 动态推理与目标导向的决策生成

Data Agent 能够根据实时数据自动调整推理策略,实现基于目标的决策生成。这一功能在金融、制造、供应链等行业应用中,通过深度推理,显著提升了决策效率和精准度。

  • 自然语言到语义层的映射

结合数势科技的统一业务语义层,Data Agent 能够将复杂的自然语言需求转化为精准的分析任务,提升了数据与业务需求的对接效率,避免了传统BI工具的繁琐转换过程。

  • 持续学习与反馈机制

Data Agent 具备持续学习的能力,在执行过程中不断优化决策策略。通过动态反馈机制,系统能够迅速适应不断变化的业务需求,保持高效运作并优化决策效果。

4. 行业应用与挑战

  • 金融行业应用

在金融行业,Data Agent 被广泛应用于投资决策支持与报告生成。通过自动化的自然语言查询、数据归因分析和报告生成,Data Agent 显著提高了金融机构决策的速度和精准度,使得管理者能够快速应对市场变化。

  • 零售行业应用

在零售领域,Data Agent 帮助品牌在“总部战略 - 门店执行”之间建立了实时协同机制。系统整合结构化与非结构化数据,提供门店异常预警、营销建议等,提升了总部与门店间的沟通效率,从而推动整体运营效率的提升。

  • 制造行业应用

在制造业,Data Agent 为企业提供了“用户数智化中心”,通过整合1600万活跃用户数据,克服了数据分散的挑战。团队能够实时追踪用户行为,自动生成标准化的智能决策方案,大幅提升了运营效率和决策质量。

5. 技术难点与解决方案

  • 数据标准化与跨团队协作

不同部门之间的数据标准化问题普遍存在,Data Agent 通过建立统一的数据标准和接口协议(如 MCP 协议),确保不同业务领域之间的数据互通与协作。

  • 智能 Agent 之间的协同与调度

Data Agent 通过先进的冲突管理机制与任务调度算法,优化了多个 Agent 之间的协同效率,确保了资源的合理分配,从而推动系统高效运作。

  • 数据隐私与安全性问题

在处理敏感数据时,Data Agent 结合指标平台模块,利用行列级数据安全机制,通过企业级数据语义层确保数据查询的精准性。同时,系统实时校验用户权限,防止不当的数据访问,确保企业数据的各个环节都得到严格的安全保障。

6. 展望与未来方向

  • 技术的进一步演进

随着人工智能与机器学习技术的不断突破,未来的 Data Agent 系统将能够处理更加复杂的决策任务,提高决策精度,适应更加动态与复杂的业务需求。

  • 行业特定知识图谱的深度整合

Data Agent 未来将更加深度整合行业特定的知识图谱,提升决策的行业适配性与精准度,帮助企业在多变的市场环境中做出更为前瞻性的决策。

  • 跨平台生态协作与数据融合能力

随着企业工具和数据源的日益丰富,Data Agent 将进一步增强跨平台协作能力,通过高效的数据融合与共享,推动企业的智能化转型。

落地挑战与方案重点:

  • 数据标准化与协作:如何解决不同团队间的数据标准不统一以及如何实现智能 Agent 之间的高效协作

  • 数据隐私与安全:在智能决策过程中如何确保数据的安全性、隐私保护与合规性

  • 推理深度与计算效率:如何在大模型推理中保持决策的深度和计算效率的平衡

  • 系统扩展性与高可用性:如何设计平台架构以支持企业的大规模数据需求并保持高效稳定运行

听众收益:

  • 深入理解 Data Agent 架构:学习如何通过多智能体架构提升企业智能决策能力。

  • 实际应用案例分析:了解 Data Agent 在金融、零售与制造业中的应用,展示其带来的显著效益。

  • 技术挑战与实践经验:掌握解决跨团队协作、数据标准化、隐私保护等问题的技术方案。

  • 未来发展趋势:洞察 Data Agent 系统未来在智能决策领域的演进与潜力。

姬朋飞 爱獭科技 CEO

个人介绍:Chat2DB 创始人,Easyexcel 作者

演讲主题:AI 在 Text2SQL 应用领域的实践

演讲介绍:本次分享重点介绍 Text2SQL 在商业智能分析场景的落地实践。面对数千业务分析师每日大量重复的 SQL 编写需求,我们基于大语言模型构建了智能 SQL 生成平台。通过领域知识增强的 Prompt Engineering 提升模型理解准确性;采用分阶段生成策略(意图理解 -> 逻辑验证 -> SQL 生成),将复杂查询正确率提升至92%;创新性引入搜索增强和人类反馈机制,使模型具备业务经验积累能力。解决了跨库查询、复杂 JOIN 等技术难点。目前平台已服务 30000+ 分析师,SQL 生成效率提升8倍,准确率较传统方案提升35%,平均节省分析师40%工作时间。将分享大规模 AI 落地的经验与思考。

演讲提纲:

1. 业务背景与挑战:传统 #SQL 开发痛点分析、业务分析场景特点、现有解决方案的局限性、项目目标与技术挑战

2. 技术方案设计 

  • 整体架构:系统架构设计、核心技术模块、数据流转流程

  • 关键技术突破:领域知识增强的 Prompt 设计、多阶段生成策略详解、RAG 检索增强方案、人类反馈闭环机制

3. 落地实践与优化:实践难点攻克、复杂查询处理、跨库查询优化、性能提升方案、效果优化策略、准确率提升方法、业务知识积累、错误处理机制。

4. 应用成效与经验总结 

  • 应用效果:准确率指标、效率提升数据、业务价值体现

  • 经验与展望:落地经验总结、最佳实践分享、未来演进方向

听众收益:

1. 技术实践价值

  • 深入了解 #Text2SQL 在大规模商业场景的完整解决方案

  • 掌握LLM结合业务知识的关键技术路径和实现方法

  • 获取准确率优化、复杂查询处理等技术难点的解决思路

  • 学习 RAG、多阶段生成等前沿技术的实战应用

2. 工程落地经验

  • 获得大规模 AI 系统从 0 到 1 的完整建设经验

  • 了解项目推进过程中的典型坑点和规避方法

  • 掌握效果优化、成本控制的实用策略

  • 学习性能调优和系统可用性保障的实践经验

徐宗泽 DeepWisdom/MetaGPT 合伙人

个人介绍:DeepWisdom 合伙人之一,市场VP。佩斯大学硕士,河海大学(在读)博士;在 DeepWisdom 负责包括电力、航空、制造等多个领域的 AI Agent 的应用落地;拥有数千万级 AI Agent 项目实践落地经验,MetaGPT 团队核心成员。

演讲主题:Foundation Agent 赋能:打造灵活对齐的 AI4DATA 实践与价值创造

演讲介绍:作为 DeepWisdom 合伙人及 MetaGPT 核心团队成员,我将分享如何通过 Foundation Agent 技术实现数据科学领域的灵活对齐与价值创造。演讲聚焦电力、航空、金融、制造等多个行业的 AI4DATA 实践案例,剖析从需求识别到方案落地的关键决策点,以及克服技术与业务融合挑战的实践路径。通过实际数据支撑,展示 Foundation Agent 如何将传统数据分析工作效率提升90%以上,同时实现接近99%+的任务准确率,帮助企业实现从"外行做内行事"到"专业人做专业事"的转变,创造实质性商业价值。

演讲提纲:

1. 数据科学领域的行业痛点与挑战

2. Foundation Agent技术创新

3. 灵活对齐的实现路径与方法论

4. AI4DATA 行业落地案例分析

听众收益:

1. 掌握 Foundation Agent 在数据科学领域的应用方法论,了解如何通过灵活对齐实现 AI4DATA 的价值最大化

2. 获取跨行业 AI4DATA 应用的最佳实践与经验,包括电力、航空、金融等领域的实际落地案例

3. 了解如何构建基于"原子化角色+经验池+领域知识"的多智能体团队,为企业数据科学能力建设提供可复制的实施路径

落地挑战和方案重点:

1. 领域知识融合难题:传统 AI 难以有效整合行业专业知识,导致数据分析应用场景受限。我们通过构建经验池系统,将行业专家经验与 AI 能力有机结合,实现了知识的高效复用与迭代优化,使 AI4DATA 能够真正理解并应用领域专业知识。

2. 数据科学任务的动态适应挑战:数据分析任务通常涉及多个互相关联的步骤,需要动态调整中间数据和适应不断变化的任务依赖关系。我们采用动态层次规划方法,构建任务行动图以适应数据变化,使 Foundation Agent 能够自动解决各种复杂的数据科学问题,将平均调试次数从1.48降低到0.32,执行成本降低70%。

② AI Agent 知识工程 & 端侧应用论坛

出品人:齐翔 蚂蚁集团 高级算法专家

个人介绍:蚂蚁数科 NLP 和 Agent 算法负责人,高级算法专家。中科大本科,中科院计算机专业博士,博士方向专注 NLP / 机器学习领域,负责蚂蚁数科 ToB Agent 算法研发,关注 Agent 在 B 端严肃领域的知识工程、复杂任务推理、场景评测和系统进化等课题。

演讲主题:蚂蚁数科 AI Agent 知识工程实践

演讲介绍:智能体系统中的文档库、数据库、工具库等资源可以被视为广义的外置知识,是除了大模型能力之外,对智能体表现的最主要影响因素。尤其在蚂蚁数科耕耘的 ToB 严肃生产领域,时常面临原始知识质量参差 VS ToB 业务形态本身容错率低的矛盾,将优化知识供给的重要性进一步提高。我们将这些知识供给层面的优化统称为知识工程,并总结分享蚂蚁数科在此方面的实践经验,如自动提取文档库要素、生成 FAQ、至对数据库 schema 进行增强和改写、乃至完善残缺的 API 文档、自动总结工具调用的 SOP 等,形成一整套更加智能体友好的知识库,通过提升源头供给质量,在风控、营销、运维、金融问答等 ToB 领域取得较为显著的效果提升。

演讲提纲:

1. What&Why

2. RAG 知识工程

  • 多模态复杂文档解析

  • 文档要素抽取与生成

  • 在线检索策略

3. ChatBI 知识工程

  • 表 Schema 增强

  • 指标逻辑经验增强

  • 在线检索策略

4. ToolUse 知识工程

  • API 文档增强

  • SOP 探索和 SOP 遵循

5. 业务案例

6. 总结与展望

听众收益:

1. 明确认识到知识供给的质量对 Agent 系统效果的重要性

2. 学习蚂蚁数科在 RAG、ChatBI、ToolUse 知识工程方面的实践经验,启发结合自身实际情况的优化方法

落地挑战和方案重点:

1. 如何进行有效的知识质量评测

2. 人机协同的知识管理运维

3. 如何从线上任务记录中总结出新知识

明振南 小米 高级算法工程师

个人介绍:2019年加入小米人工智能云平台,主要从事多轮对话复杂任务落地订餐场景的研究工作。先后从事小爱购物垂流语义理解能力提升,购物垂域体验优化以及复杂任务多轮框架落地购物垂域的相关工作。打造小米产品导购助手建设,试点落地小米中国区下辖5家分公司、48家小米门店。基于大模型的小米商品助手建设,主要负责 RAG 在售前、售后客服垂直领域问答的建设落地。目前从事基于大模型的小米汽车车载问答助手,负责垂直领域问答 Agent 项目建设。加入小米后,先后获得集团技术委技术创新奖、小米青年工程师等奖项,相关工作成果申请专利4项。

演讲主题:小米商品助手、汽车问答垂直领域问答 Agent 建设

演讲介绍:小米商品客服问答和汽车座舱问答是两个典型的垂直领域问答场景,传统做法是放在各自垂域内采用单独技术方案实现;大模型时代,RAG 的技术出现后,利用大模型技术为这两个典型场景赋能,统一采用 Agent 架构方案实现。

  • 技术方案:垂直领域问答 Agent 主要包括 Function Code 语义理解模块、Query 改写模块、检索&重排模块、RAG 知识库以及大模型生成模块。

  • 落地挑战:

1. 小米商品品类类目繁多,如何基于格式化数据构建向量化知识库

2. 针对商品类信息如果优化检索模型,提升业务效果

3. 用户的自然多轮交互,需要解决多轮检索问题

4. 小米客服问答垂直领域的回复风格需要微调优化

5. 大模型回复涉及小米商品的品牌舆情问题

  • 解决思路:

1. 利用能力更强的大模型辅助建设向量化知识库

2. 基于业务场景微调reranker模型,提升检索效果

3. 建设多轮改写模块,解决多轮场景查询

4. 针对小米业务场景特点,构建SFT数据微调生成回复大模型

  • 解决成效:在小爱业务中统一了 Auto、Shopping 垂域业务,从原有的技术架构升级为基于 RAG 的大模型 Agent。

演讲提纲:

1. 简要介绍业务背景

2. 介绍 Agent下的整体技术架构方案

3. 介绍业务的难点

  • 如何构建向量化知识

  • 领域知识检索效果

  • 大模型回复生成

4. 针对业务难点的对应解决方案

5. 总结与展望

听众收益:

1. 了解小爱的 RAG 技术在垂直领域问答上的落地经验

2. 了解商品品类格式化数据构建的经验

3. 了解汽车动态信号查询的 RAG 实践经验

落地挑战和方案重点:

1. 多模态检索问题:用户手册中的图片

2. 需要复杂推理的转换检索问题

雷士驰 OPPO 算法主管

个人介绍:雷士驰,OPPO 算法主管/小布助手对话算法负责人,完整参与小布助手从 0 到 1 的全链路算法架构设计与技术演进。深耕 NLP 与智能对话领域,在大模型应用、多模态交互、工具调用与任务编排等方向实现多项关键技术突破,持续推动对话 AI 的产业化落地与体验升级。

演讲主题:超级小布在 Agent 时代的重构与进化之路

演讲介绍:在人工智能 Agent 技术迅猛发展之际,OPPO 小布助手打破传统对话系统技术壁垒。针对传统对话架构在复杂语义处理时意图理解碎片化、动作执行耦合度高的困境,创新性构建「基础大模型 + 层次化工具 Agent」双引擎架构。 

落地时,面临超 2000 个手机系统级 API 的 Function Call 优化、不同 LLM Agent 对话决策、多指令动态编排及 “一键问屏” 等复杂交互形态难题。OPPO 借助千万级高质量对话语料库与自学习算法,使 Function Call 准确率大幅提升,超级小布智能度显著增强。通过统一意图理解与任务编排中枢,为用户呈上更精准、连贯的智能服务体验。

演讲提纲:

1. 超级小布在 Agent 时代变革的重要性 

2. 阐述人工智能 Agent 技术崛起的大趋势 

3. 讲解 OPPO 选择构建「基础大模型 + 层次化工具 Agent」双引擎架构的考量 

4. 落地挑战:

  • 超 2000 个手机系统级 API 的 Function Call 优化难题,涉及高相似工具调用效果不佳 

  • 不同 LLM Agent 对话决策的复杂选择,易出现决策偏差 

  • 多指令动态编排及 “一键问屏” 等复杂交互形态实现困难 

5. 解决思路:

  • 构建千万级高质量对话语料库,为模型学习提供丰富数据 

  • 运用自学习算法,让模型不断优化 Function Call 准确率 

  • 打造统一意图理解与任务编排中枢,整合流程,提升效率 

6. 未来规划:

  • 持续拓展模型能力,对接更多外部服务,丰富功能 

  • 深化多模态交互,如优化图片、文档、文本的 Function Call,提升交互体验 

  • 结合新技术,探索更智能的对话决策机制,增强超级小布的智能度与个性化 

7. 总结 

  • 回顾超级小布在 Agent 时代的重构过程与取得的成果 

  • 强调持续进化对满足用户需求、推动智能助手行业发展的意义,展望未来前景

听众收益:

1. 了解超级小布助手背后的技术演进

2. Function Call 的技术实践

落地挑战和方案重点:

1. 相似能力的 Function 如何更好的区分

2. 如何更加高效的注入 Function 

3. 自适应思维链在 Function Call 上的应用

庞博 阿里云 AnalyticDB for PostgreSQL 产品经理

个人介绍:毕业于香港科技大学计算机系。10年数据库/大数据从业经历,曾就职于Oracle Exadata研发团队。目前负责阿里云原生数据仓库AnalyticDB for PostgreSQL产品,研究方向有云原生数据仓库、增强式RAG、AI Agent。

演讲题目:AI时代下的应用 = Database x AI Agent ?

演讲介绍:微软 CEO Satya Nadella 预言 “未来 SaaS 应用可能被 AI Agent 取代,因为它们本质是数据库之上的一层用户界面和业务逻辑” 。暂且不评论这个言论是否武断,但可以设想得到:

· AI 时代下的软件开发范式发生变化,独立/泛开发者变多,迭代速度更快。

· AI Agent 将数据价值发挥到极致,真正实现 “数据驱动”。

· 真正实现应用的“千人千面”。

本次演讲将给大家分享 AI 时代下的数据库架构演进趋势,以及如何打造数据库 AI 原生能力加速 AI Agent 落地,包括多模态数据处理, Serverless,分支管理,增强式 RAG 等。

演讲提纲:

1. AI 时代下的云原生数据库架构演进趋势。

2. AnalyticDB for PostgreSQL 产品架构及 AI 原生能力。

3. 基于 AnalyticDB for PostgreSQL 的 AI Agent 开发实践。

4. 与 AI 开发生态的结合。

听众收益:

· 架构师:如何规划适合AI时代的数据库架构。

· 开发者:如果利用数据库的AI原生能力构建AI Agent。

落地挑战和方案重点:AI 时代新的开发范式下数据库架构。数据库在 AI Agent 开发中扮演的角色。

③ AI Agent 最佳实践论坛

出品人:刘琦 腾讯 IEG 高级研究员

个人介绍:毕业于大连理工大学,研究兴趣包括知识抽取、文本生成、多模态学习、预训练语言模型。在游戏智能创编、信息流内容质量业务场景有丰富的算法实践经验。当前负责游戏短视频AI创作的算法开发和项目落地。

李明玉 淘天集团 算法专家

个人介绍:李明玉,淘天集团算法专家。早期从事知识图谱构建与应用,近年来研究多模态大模型与AIGC相关方向。负责开发淘工厂AI创意工厂、素材商家端等多种电商内容相关产品,有丰富的内容生成经验。

演讲主题:AI Agent 在电商内容场景的应用演进

演讲介绍:作为淘宝 M2C 模式的核心载体,淘工厂直连产业带源头工厂与消费者,面临高频商品上新、全域流量运营及多形式内容等电商内容生产的业务痛点。我们通过 AI Agent 技术分三阶段实现内容托管:1.0时代基于大语言模型实现多平台个性化文案生成;2.0时代融合 Stable Diffusion 构建多模态生成引擎,实现 AI 模特图与智能商品主图生产;3.0时代通过多模态优化 Agent 建立“生成-诊断-调优”闭环,提升内容点击转化。方案覆盖文案、图像、视频全内容形态,助力商家内容成本降低的同时,优质素材生产效率提升,推动白牌商品 GMV 增长,为 M2C 生态构建智能化内容基座。

演讲提纲:

1. 业务背景:淘工厂作为淘宝产业带白牌商品的核心阵地,以M2C(Manufacturer to Consumer)经营模式为核心,直连产业带源头工厂与消费者,主打“去除品牌溢价”的高性价比白牌商品。在这一场景中,电商内容的生产与投放扮演着至关重要的角色,连接着商家和消费者。淘工厂的商家多为中小型企业,他们往往缺乏专业的运营团队和内容生产能力。

  • 生产力层面,高频上新、多样化的内容生产需求让商家面临着高昂的内容生产成本。

  • 内容形式层面,平台要求商家提供的内容类型从简单的商品描述扩展到了图文搭配、短视频、直播脚本等多模态内容。这种多样化的需求进一步增加了内容生产的复杂度和专业性。

  • 内容质量层面,消费者对内容展现形式、真实性和吸引力的要求不断提高。商家经营类目跨度大,商品主图、视频、文案等制作专业度极高的内容难度大,而商品内容有直接影响了商品的流量和点击转化,需要优中选优。

2. 方案选型:面对不同模态类型、不同风格的优质内容生产诉求,我们抽象了3种智能内容生产的框架,构建了多种AI Agent来分阶段来解决。

第一阶段:多种风格多种人设文本内容生成

利用ChatGLM、Qwen等文本生成模型作为基座、利用不同平台优质内容进行分类、打标,对基座模型进行SFT。另外根据不同内容发布平台(小红书、什么值得买)的受众和运营的账号人设,构建了内容生产平台、支持运营灵活配置。底层通过prompt工程来激发模型相应的生成能力。

第二阶段:面向图片、视频等多模态内容生产调优的创意工具

以Stable Diffusion为基础技术框架,结合inpaint技术和如controlnet、Adapter等模型条件控制生成图像的技术。串联商品识别、分割、生成、超分等多种算法模型来构建图片生产pipeline。构建AI创意工厂产品,支持AI模特图、AI商品图、AI扩图、AI擦除等能力。

第三阶段:数据驱动的全自动内容生产&优化

以Qwen-VL系列多模态大模型为基座模型,结合商品内容的多种特征(商品图背景内容、主体表达、利益点等)和线上的点击转化指标,构建商品内容理解&诊断Agent。该Agent可以推理出具体内容优化的步骤,调用不同的优化工具来执行。

3. 落地挑战

文本内容生产:

  • 多样性与个性化需求:不同社区平台人群画像差异较大,对内容的风格要求不同,符合平台的内容才能挖掘更多的社区流量

  • 模型幻觉:尤其是对于商品测评类等文章生产要求商品属性100%准确。

  • 文案祛AI化:很多文案缺乏“人味”,容易失去真实性,引起观众反感

  • 模态间内容一致性:对于生产和图片/视频相对应的文案,不同模态间内容不一致会让用户感觉不知所云

多模态内容生产:

  • 跨品类泛化难:以商品图为例,不同商品类目对要生产的商品图有不同的要求。如服饰类目需要生成模特,家居类目需要生成合适的温馨场景,现有的生图模型难以满足所有类目的生成需求;

  • 商品真实性:保留主体特征的Stable Diffusion框架生成的图片或多或少还是会对商品主体有改变,而在业务场景中商品主体的变化会带来严重的客诉;

  • 图中的利益点难以和图片同时生成:现有的模型对中文的理解和生成能力都不足,商品图中的利益点是重要的组成部分,需要展现在图中。

多模态内容优化:

  • 不同业务场景下AI内容的质量评估:场域不同,用户的需求也不同。如搜索场域需要让用户快速决策,推荐场域要提供“种草”和“发现”的能力。相同的内容无法适配不同场域,实现高点击转化;

  • 内容优化步骤依赖模型推理决策能力:对于诊断后需要优化的内容,需要按照优化目标按顺序调用不同的能力,这要求AI Agent有规划和决策的能力;

  • 多Agent协同:自动执行内容优化是一个复杂的过程,需要有质量评估Agent给出优化建议,决策Agent给出调用工具的类型和顺序,执行Agent来做具体的优化动作。是一个复杂的多Agent协同的系统。

4. 解决思路

文本内容生产:

  • 多样性与个性化需求:针对不同内容分发平台的人群特征构建相关的内容知识库。支持动态配置人设、语气、风格等设置,通过prompt工程解决

  • 模型幻觉:微调模型NER任务的能力,预先抽取商品相关CPV。利用抽取的CPV与生产的测评文案中的关键信息进行对比,进行模型二次校验

  • 模态间内容一致性:利用MiniCPM、Qwen-VL等多模态大模型扩模态理解图像/视频帧与商品信息的关联,并按照图片/视频帧时间顺序生成相应的文案。

多模态内容生产:

  • 跨品类泛化难:对不同类目商品图进行聚类和特征分析,按照有无模特、有无使用场景等特征构建不同能力和多条优化链路;

  • 商品真实性:摒弃了商品特征重构生成的方式,利用主体分割+背景inpaint的方案实现商品主体100%复原。再通过重新打光,色彩调整等技术让前景和背景更加融洽。

  • 图中的利益点难以和图片同时生成:通过两阶段方式,即先生成无文案图+文案渲染的方式来保证良品率。对于文案的渲染规则可以自动化抽取优质设计师模板实现自动化,保证了文字渲染的丰富度。

多模态内容优化:

  • 不同业务场景下AI内容的质量评估:构建多模态电商内容理解大模型,根据不同场域的优质内容来结构商品图,总结沉淀不同场域商品图制作经验。并以此来诊断商品图优化的方向。

  • 内容优化步骤依赖模型推理决策能力:利用推理模型生成的步骤来微调Qwen-VL等多模态模型,让内容优化的决策Agent具备推理和规划能力。

  • 多Agent协同:制定好不同Agent的功能和负责的任务,通过MCP等协议实现多Agent的串联和协作,在逐步摸索中。

5. 未来规划&总结

通过技术迭代升级和对业务痛点的不断深入,内容生产&优化的AI Agent已逐步显现初级形态。AI Agent不是替代设计师,而是重构“人类创意×机器执行”的新型生产关系,电商内容竞争也已从“素材数量”转向“智能体进化速度”的比拼。但仍有很多技术还未攻克,如构建理解&生成的大一统模型,两个部分相互促进达到更优的效果。再比如视频生成可控性(如Sora技术适配电商场景)技术。这些突破将推动AI Agent从“辅助工具”进化为实打实的生产主力,为电商内容生态开启人机共生的新篇章。

听众收益:

1. 了解大模型在垂类电商领域的应用场景和演化进程,如何让多模态的基座模型注入领域知识,达到业务可用的效果;

2. 了解不同类型内容生产链路的核心技术,包括 AI 生成商品背景、自动利益点渲染等环节;

3. 了解行业 AI Agent 的构建思路和协同方法。

落地挑战和方案重点:

1. 电商内容生成专业度高、工作复杂繁琐,需要很强的电商和设计知识,同时算法模块多,内容生产的高良品率对算法要求很高;

2. 内容时代流量竞争激烈,需要更高质量的内容才能实现商品高的点击和转化。

王文瑾 腾讯游戏数据 应用研究员

个人介绍:王文瑾,腾讯游戏数据 应用研究员,浙江大学计算机科学与技术学院博士。担任ACL、EMNLP等审稿人,研究工作发表在CVPR,ACM MM,IJACI等计算机领域顶级学术会议上,授权发明专利 5 项。目前在腾讯游戏数据负责游戏领域Agent、RAG与行业大模型的研究与应用。

演讲题目:AI Agent在角色扮演场景研究进展

演讲提纲:

1. 角色扮演智能体的基本概念与核心挑战

  • 角色扮演智能体定义

  • 核心挑战

2. 如何提升智能体角色扮演忠实度

  • 基于 Prompt 的角色扮演

  • 基于示例对话的角色扮演

  • 基于模型微调的角色扮演

3. 如何提升智能体的长期记忆能力

  • 基于 RAG(Retrieval-Augmented Generation)的记忆

  • 长期记忆存储策略

  • 长期记忆检索策略

  • 长期记忆管理策略

4. 如何评估智能体的角色扮演能力

  • 角色扮演评测指标与方法

  • 角色扮演静态评测与动态评测方法

5. 展望

徐海洋 阿里巴巴通义实验室 高级算法专家

个人介绍:徐海洋,阿里通义实验室高级算法专家,负责通义多模态大模型mPLUG、Mobile-Agent系列工作,包括基础多模态模型mPLUG/mPLUG-2,多模态对话大模型mPLUG-Owl/Owl2,多模态文档大模型mPLUG-DocOwl,多模态智能体Mobile-Agent、PC-Agent等,其中 mPLUG 工作在 VQA 榜单首超人类的成绩,Mobile-Agent工作CCL2024 Best Demo,获得多个多模态榜单第一和Best Paper。在国际顶级期刊和会议ICML/NeurIPS/ICLR/CVPR/ICCV/ACL/EMNLP等发表论文50多篇,并担任多个顶级和会议AC/PC/Reviewer。主导参与开源项目mPLUG,Mobile-Agent,AliceMind,DELTA。

演讲题目:多模态、多端智能体Mobile-Agent

演讲介绍:随着多模态大模型的快速发展,围绕Mobile、PC等端侧构建多模态智能体,进行自动化操作成为了现在业界最热的研究应用方向。我们围绕多智能体架构、复杂任务拆解、自主进化推理构建整个多模态、多端智能体Mobile-Agent技术体系,包括多模态单智能体Mobile-Agent、多模态多智能体Mobile-Agent-V2、自主进化多模态智能体Mobile-Agent-E:、复杂任务拆解多模态PC智能体PC-Agent等。Mobile-Agent工作也获得CCL2024 Best Demo。

演讲提纲:

1. 大模型智能体背景

2. 多模态手机智能体Mobile-Agent

3. 多模态PC智能体PC-Agent

4. Mobile-Agent开源应用

听众收益:

1. 了解大模型智能体发展背景;

2. 了解Mobile-Agent开源应用;

④ 具身 Agent 论坛

出品人:王鹏伟 北京智源人工智能研究院 具身大脑大模型负责人

个人介绍:王鹏伟,北京智源人工智能研究院具身大脑大模型负责人、目前主要负责具身大脑大模型RoboBrain以及大小脑框架RoboOS,研究方向是具身智能、多模态大模型、深度学习、自然语言处理和机器学习等方向,曾就职于阿里巴巴达摩院以及快手科技大模型中台部门,主要负责大规模语音语义一体化等多模态交互系统以及多模态预训练项目,具有丰富的多模态大模型、文本大模型以及机器智能等产学经验,在相关领域顶级会议上发表过数十篇会议论文。

王凡 深圳市机器人与人工智能研究院 具身智能研究员

个人介绍:王凡,深圳市人工智能与机器人研究院(AIRS)具身智能中心研究员,前百度杰出研发架构师, 人工智能算法高级工程师,发表超过40篇顶级研究论文(包括Nature子刊封面文章) 。在大语言模型,自动驾驶大模型,生物表征大模型等领域有多个开创性工作。获得超过80项国内外专利,吴文俊人工智能科技进步奖(特等奖)等。目前专注通用具身智能体的自主学习能力研究。

演讲题目:面向下一代自主学习智能体的大规模元学习技术

演讲介绍:大模型具有零样本和少样本泛化能力强,但持续学习能力相对较弱的特点。在这一背景下,基于现有的尺度幂律路线为具身智能构建一个通用基础智能体,面临着诸多重大挑战,包括通过数据穷举任务的成本极高,且可行性较低。报告讨论基座模型智能体化的趋势,以及具备可塑性和自主学习能力的重要性。报告进一步指出大模型在长序列上下文学习方面的必要性,以及当前仅靠海量训练文本激发上下文学习的局限性。基于此,报告强调基于大规模元学习改进基座模型可塑性和自主学习能力,包括提升数据分布质量,增强长序列建模能力,以及改变现有评价体系等。

演讲提纲:

1. 背景介绍:

  • 大模型发展的现状和瓶颈

  • 通用智能体的关键障碍

2. 预训练和元训练技术路线对比

  • 从上下文学习涌现到训练鲁棒、通用的上下文学习能力

  • 通用上下文学习特性及其和现有评价体系的冲突

3. 未来发展展望

  • 基座模型智能体化趋势

  • 通用人工智能展望

听众收益:

  • 了解智能体依赖的大模型上下文学习的特性和源头。

  • 通用智能体技术路径的一些新思路。

落地挑战和方案重点:参数尺度幂律和上下文尺度幂律的竞争关系。

高宸 清华大学 助理研究员

个人介绍:高宸,清华大学信息国研中心助理研究员,于清华大学电子系获学士学位和博士学位,主要从事具身智能等方面的科研工作,发表CCF-A类论文50余篇,谷歌学术引用5000余次,获ACL 2024杰出论文奖,入选斯坦福-爱思维尔全球前2%科学家,担任ICML、NeurIPS等学术会议的领域主席。

演讲主题:城市空间智能:具身感知与强化推理

演讲介绍:现有模型在复杂动态环境(如城市开放空间)中的具身感知与推理能力仍显不足。本次演讲将分享在城市开放空间智能领域的成果,提出首个针对城市低空的具身认知基准,揭示各类推理能力与具身任务的强相关性,并进一步介绍Embodied-R通过结合视觉语言模型的感知能力与语言模型的推理能力,基于强化学习实现慢思考。

演讲提纲:

1. 问题背景

2. 评测基准集 UrbanVideo-Bench

3. 推理模型 Embodied-R

4. 总结

听众收益:了解城市开放空间智能领域的研究背景、当前现状、未来方向。

落地挑战和方案重点:效率、任务广度上可以进一步提升。

郝孝帅 北京智源人工智能研究院 具身多模态大模型研究员

个人介绍:郝孝帅博士是北京智源人工智能研究院的具身多模态大模型研究员,博士毕业于中国科学院大学信息工程研究所。研究方向为具身智能和多模态大模型,并在多个顶级期刊和会议上发表了30余篇论文,包括TIPI、nformation Fusion、NeurIPS、ICLR、CVPR、ECCV、AAAI和ICRA等。此外,在国际竞赛中表现优异,曾在CVPR和ICCV等顶级会议上获得6项国际前3名的成绩。

演讲主题:统一具身多模态大脑模型 RoboBrain

演讲提纲:

我们提出了ShareRobot,一个大规模、高质量、细粒度的异构数据集,涵盖102个场景、12种机器人本体和107种原子任务,包含百万级问答对。数据集标注了任务规划、对象可操作区域和末端执行器轨迹等多维信息,填补了现有数据在多样性、粒度和任务复杂性上的不足,为机器人学习与规划提供了全面支持。

基于ShareRobot,我们提出了RoboBrain,一个统一具身多模态大脑模型,首次实现任务规划-可操作区域感知-轨迹预测的三维能力融合。RoboBrain将抽象指令(如“准备一杯茶”)映射为具象动作序列(如抓取、对准、倾倒),并同步生成可操作区域与精确轨迹,显著提升机器人在具身长程操作任务中的能力。该模型通过多模态协同,解决了传统方法在任务分解、感知与动作生成中的割裂问题,为复杂机器人操作提供了全新解决方案。

⑤ AI Agent 协同新范式论坛

出品人:龚江涛 清华大学 助理教授/助理研究员

个人介绍:龚江涛博士,清华大学智能产业研究院助理教授,曾任联想集团研究院技术战略与创新孵化平台高级研究员,负责智能系统交互技术研发、类人智能体、认知及情感计算相关研究。龚江涛博士主要基于计算机信息科学、认知行为科学、认知神经科学等多学科的交叉融合,开展学习、工作、驾驶等强认知活动场景中的智能系统研究。曾作为项目负责人、课题任务负责人承担了包括北京市、科技部、工信部等多项科研项目,发表人机交互领域顶级会议或期刊论文40余篇、获得20余项国内外发明专利。

演讲题目:认知增强的长交互智能体

演讲介绍:本次演讲聚焦“认知增强的长交互智能体”,探讨如何赋予智能体持续对话、情境记忆、策略调整与元认知等能力,使其在长时间、多轮交互中展现更高层次的理解与适应性。演讲内容涵盖认知科学、人工智能与人机交互的交叉前沿,系统梳理相关技术路径与研究挑战。通过自动驾驶、服务型机器人、教育辅导等典型应用案例,展示认知增强技术在复杂、动态环境中实现高效协作的潜力,为构建具备长期智能行为的自主系统提供新思路。

演讲提纲:

1. 问题引入:长交互智能体的意义与挑战

2. 方法论介绍:“认知增强”概念简介:超越短时反应,具备记忆、推理与自我调整能力

3. 技术案例:具身认知增强的自动驾驶

4. 前沿挑战与展望:跨领域协作与人机共生未来

听众收益:

1. 理解“认知增强”在智能体设计中的关键作用

2. 洞察跨领域应用中的技术实践与挑战

3. 启发未来智能系统的设计思路

金昱成 昆山杜克大学 助理教授

个人介绍:金昱成在昆山杜克大学担任计算机科学助理教授。他的研究专注于人机交互和 Agent 在心理福祉与增强创造力的应用。已发表论文30余篇,包含领域顶级会议和期刊 CHI,CSCW和 IJHCS 获十项专利,担任多项国际会议高级程序委员与审稿人。

演讲主题:以人为中心的对话式推荐系统评估与多 Agent 协同设计探索

演讲介绍:随着大模型的发展,具备优秀对话与理解能力的对话式推荐系统(CRS)越来越受到关注。然而,现有评估方法往往缺乏对用户体验的全面刻画。本演讲将介绍我们提出的以人为中心的评估框架 CRS-Que,涵盖推荐内容质量与对话质量的多维度因素分析,并分享基于 ChatGPT 推荐内容的实证研究结果,验证提示词指导和推荐领域对体验的影响。最后,将探讨当前发现的生成式推荐系统中的 Filtering Bubble 问题,以及通过引入 Multi-Agent 协同机制来缓解该问题的初步探索。通过系统化评估与创新设计,提升推荐系统的人本价值。

演讲提纲:

  • 背景:大模型驱动的对话式推荐系统发展现状与挑战

  • 方案选型:提出 CRS-Que 评估框架

  • 落地挑战:用户体验多维量化与 Filtering Bubble 问题

  • 解决思路:以人为中心评估指标设计与 Multi-Agent 机制引入

  • 案例分析:ChatGPT 生成推荐在不同提示词与领域下的实验结果

  • 未来展望:拓展应用场景与深化多智能体推荐研究

  • 总结与启示

听众收益:

  • 掌握以人为中心的对话式推荐系统评估方法

  • 理解生成式推荐内容中 Filtering Bubble 问题的本质及应对策略

  • 获得提示词设计与多 Agent 协作优化推荐体验的实操经验

落地挑战和方案重点:

  • 多维体验指标量化难,需兼顾客观性与人本感知

  • 生成式推荐导致的偏见更隐蔽,需引入动态干预策略

张印帅 鼎道智联 首席交互设计官

个人介绍:清华计算机硕士,任鼎道首席体验官,专注多模态人工智能系统设计。曾获红点、iF、红星等6项国际顶级大奖10余次,个人获光华龙腾奖“中国设计青年百人榜”,拥有专利100余项,其中国家发明专利30余项,发表国际会议论文7篇,专著1部。

演讲题目:后WIMP时代的舞台交互范式

演讲介绍:在当今充满颠覆与变革的设计浪潮中,我们正从传统WIMP交互范式跨越到充满叙事性与情感共鸣的“舞台范式”。本次IXDC分享,将以深度洞察与实践案例,为各位设计师和交互专家呈现一场关于AI时代交互革命的盛宴。

演讲提纲:

1. 从WIMP到舞台:叙事性交互的全新演绎

我们将重新审视传统WIMP模式的局限,解析如何通过“舞台隐喻”构建一个多维叙事的交互场景,让系统像剧场般展开历史、现状与未来的故事,从而实现更加人性化和沉浸式的用户体验。

2. 舞台范式下的AIGUI体系

聚焦基于强化学习环境的生成式用户界面(AIGUI),我们将展示系统如何依据Markdown输入自动选取UI元件,生成包含按钮、文字、图像、图标、输入框等组件的完整JSON格式UI底板,以及如何通过design token实现主题实时切换,让界面既美观又具个性化表达。

3. 自主研发的Agent化AIOS实践

深入探讨我们在自主研发面向Agent的AI操作系统(AIOS)过程中,如何将舞台范式融入系统架构,构建具备历史、焦点和未来三重时空维度的交互“舞台”,实现AI代理在理解用户需求、执行任务和反馈情感方面的自驱式运作。

4. 从乐器到指挥杖:设计师AI工具的革命

以乐器与指挥杖的隐喻为例,探讨设计师工具在AI时代的演进。传统设计工具正逐步向智能协同迈进,新的AI工具不仅能够辅助设计,更能在设计过程中扮演指导者的角色,助力设计师实现创意与效率的双重突破。

5. AI时代的设计师新角色:从设计过程到战略引领

分析AI时代下设计师职业发展的新趋势,探讨设计师如何从传统的设计流程中脱离出来,转型为具备战略眼光、全局把控和跨界整合能力的创意引领者,重新定义自身在产品和服务中的价值。

听众收益:

• 前沿洞察:了解从WIMP到舞台范式的转变,以及实时生成UI在未来交互中的关键作用,为你提供业界最新的趋势视角。

• 技术实战案例:通过解析自主研发的Agent化AIOS和生成式UI实践,获得可落地的技术经验与方法论,助力创新设计与产品开发。

• 工具革新与能力升级:认识到新一代AI设计工具如何改变设计师的工作方式,从操作执行者转变为创意战略引领者,从而在激烈的市场竞争中保持领先。

• 全新交互体验:掌握叙事性交互与实时生成UI的设计精髓,推动用户体验的突破,让每一位用户都能享受到量身定制、千人千面的智能界面体验。

孙经纬 联想集团 人机交互研究员

个人介绍:博士毕业于北京大学心理与认知科学学院,现任联想人机交互研究员。当前研究兴趣专注于以人为中心的人与Agentic AI交互的探索与实践。已发表国际期刊/会议论文9篇,IEEE标准1篇。

演讲题目:多智能体交互系统赋能 AI 向善新实践

演讲介绍:在大模型技术快速发展的背景下,多智能体系统正逐步展现其在各领域的广泛潜力。本演讲将聚焦联想在“AI向善”方向的两项多智能体系统设计实践:其一是认知层面的探索,构建具备多角色观点表达与游戏化激励机制的系统,帮助用户在信息获取中突破过滤气泡;其二是情感层面的探索,打造支持代际角色互动的回忆辅助系统,激发老年用户的情感共鸣与记忆活化。两个案例展示了如何通过Agent人格设定、多模态交互机制与系统性流程设计,推动AI系统走向更具人文关怀与社会价值的方向。

演讲提纲:

1. 背景:大模型驱动下多智能体交互系统的发展现状与“AI向善”设计机遇

2. 案例一:多智能体系统支持认知多样性——多元观点助力打破信息茧房

  • 多角色观点构建

  • 游戏化引导与交互流程设计

  • 用户实验反馈与行为模式分析

  • 促进认知开放的设计策略与启示

3. 案例二:多智能体系统增强情感联结——多模态自然交互唤起回忆与共鸣

  • 基于个人知识库的多模态内容理解与生成

  • 多模态输入输出交互机制设计

  • 老年用户实验反馈

  • 促进回忆情感共鸣的设计策略与启示

4. 持续探索:基于多模态意图理解的“AI for Good”场景与技术拓展

5. 总结与启示:多智能体系统站在科技与人文融合的十字路口

听众收益:

1. 开阔多智能体系统在认知多样性与情感陪伴场景中的设计思路

2. 获得多角色构建、交互引导与多模态协同的设计启发

3. 对“AI向善”方向下的产品设计路径与研究方法形成更系统的认识

落地挑战和方案重点:

1. 真正的多模态自然交互对系统理解能力要求高

2. 系统集成与全场景应用打通难度大

识别二维码,免费报名


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值