智源TALK｜懂人心才叫真智能，“知人者智”：以用户为中心的智能体交互与训练

转载于 2025-10-13 12:15:45 发布 · 14 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=MzU5ODg0MTAwMw==&mid=2247555586&idx=3&sn=95faf5950c6b508b4927ca60814fcc0a&chksm=ffc3aec903602bc1da056126e526d57fcb56d297b2be7727f8a7da5a31ed12390f461d800189&scene=126&sessionid=0

报告主题：“知人者智”：以用户为中心的智能体交互与训练

报告日期：10月16日（周四） 10:30-11:30

报告要点：

大语言模型虽在各种评测体系中表现出色，却常在面对真实用户时把握不准需求，显得有些笨拙。现实中，用户意图通常以暗示、含蓄、间接的方式表达，且往往要在多轮对话中慢慢显露。如何让模型从仅仅“会解题”过渡到完全“懂用户”，是交互智能的核心难题，也是 UIUC 与 Salesforce 团队在以下两篇论文里试图回答的关键问题。

1. UserBench：先有“明镜”，才能照出“懂人”与否

UserBench 最标志性的设计，是旅行规划任务，覆盖五个子场景，每个场景都设有数十条隐式偏好表述，例如“行程很紧”就暗含“直飞/少中转”的飞行偏好。模型需要与环境中的模拟用户互动，理解每一句话背后的语义逻辑，再结合数据库作出推荐。

以往模型、用户和环境三方交互接口复杂且难以复用，UserBench 将其高度抽象为三类操作：

- Action：与用户对话（澄清、追问、确认偏好）；

- Search：检索数据库（返回混合候选集，模拟真实世界的不完美检索）；

- Answer：提交推荐（完成用户需求）。

不同任务得以在同一坐标系下评估比较，为后续 UserRL 的训练框架打下了接口基础。

研究结果揭示了许多关键信息：

单选比多选难很多：把模型可回答次数限制为一次，平均分数下滑约 40%，暴露了“一次答题”的抉择困难；

用户偏好揭示率普遍偏低：主流模型仅 ~20% 的答案完全贴合全部用户意图，即便是强模型，通过主动互动挖掘到的用户偏好也不到 30%；

会用工具≠真懂用户：模型普遍有效搜索>80%，但有效对话显著更低，“循证澄清”难度更高；

偏好集中时更难：总偏好数固定时，把偏好平均分散到多个需求更容易，而集中在少数需求上会显著拉低分数，说明挑战来自局部约束的组合复杂度；

更多对话轮数≠更好表现：盲目拉长交互轮数并不能带来收益；命中答案的“时效性”与整体模型对话质量也不总是正相关：小模型“早早猜中”整体也不如大模型的“稳扎稳打”。

2. UserRL：让交互进入训练循环

如果说 UserBench 是一面明镜，那 UserRL 就是一块磨刀石，在 UserBench 抽象出的三个接口上，构建八大统一 Gym 环境，把 User-in-the-Loop 的多轮交互转化为一个可训练的强化学习问题。在每个环境中，用户同样由 LLM 模拟，并且可以更换不同用户模型，实现交互多样性。