“质量评价”对于智能体流量获取有着举足轻重的影响。
为能给智能体用户提供良好体验,平台在推荐公开发布的智能体到各流量场景前,通常会从“配置完整度”、“耗时与稳定性”等方面,对其中部分智能体进行“质量评估”。质量无明显问题的,将有机会获得“百度搜索”等一系列高流量场景的分发曝光。
因此为了让开发者能更好的获取流量,明确智能体当前获流问题及优化方向,平台为开发者们在“我的智能体→分析”面板提供了“智能分析”功能。
“智能分析”功能将详细列举智能体质量评估后存在的问题。为方便开发者理解每种问题的原因及对应的自查、优化方法,我们撰写了这篇《智能体调优手册》,供酌情参考,具体如下:
配置完整度
问题一:配置不完整或不一致
释义: “配置完整度”主要检查的是一个智能体基础配置信息的完备性和一致性。在这个方向,我们需要注意的是智能体名称、头像、简介、开场白、开场白问题、人设齐全且一致,避免名称说“东”,开场白说“西”,人设是做北京旅游攻略,简介说是全国旅游攻略。
🌰反面案例 1: 能力范围不一致(名称全国旅游,设定是北京旅游)。
智能体名称——全国旅游助手。
智能体开场白——想知道来北京旅行吃什么美食可以问我哟。
智能体设定——人物设定是北京旅游助手,知识库也只有北京旅游相关信息
🌰反面案例 2: 身份视角不一致。
智能体名称——李白
智能体简介——李白信息大全
✅优化方案:
1.检查智能体基础信息,确保开场白、简介、开场白问题(至少 3 条)齐全。
2.设置名称、头像、简介、开场白时,应注意与智能体人设、知识库、插件赋予的能力范围一致,开场白及开场白问题应具有引导性,能引导用户问询智能体擅长解答的方向。
3.名称、简介、头像、人设、开场白等避免多项抄袭、与其他智能体雷同。
耗时与稳定性
问题一:智能体回复延时高
释义: 指智能体从用户提问到生成回答等待时间较长。
🤔问题原因:
多轮的插件/知识库调用,或者多轮的模型思考,造成等待时间较长。
✅优化方案:
1.去除非必要的插件/知识库调用,或减少调用频次。例如“美食推荐”智能体对“数据可视化”插件需求就不高,“xx食物所含营养”这类问题利用大模型本身知识即可回答,也无需调用知识库。
2.若某插件耗时较长,可尝试使用其他同类型插件。
3.如有使用自研插件且插件耗时较长,建议优化自研插件效果。
4.在回答内容质量基本能满足用户需求情况下,尝试使用速度更快的模型,速度由快到慢分别是——文心极速模型 > 文心大模型 3.5 > 文心大模型 4.0。
问题二:智能体回复不稳定
释义: 指智能体回答生成报错、生成不完整等。
🌰示例:
用户提问:给我讲一个小兔子的童话故事。
智能体回答:从前有一只小兔子……(此处省略大约1k字)。最后,小兔子终于 (这里显然生成出现了截断,没有讲完故事)
🤔问题原因:
原因一:智能体包含违规内容
✅优化方案:
违规信息会导致智能体无法正常提供回答。建议发布智能体前仔细检查智能体人设、知识库等内容, 并通过预览调优测试智能体回答,避免存在淫秽、色情、赌博、暴力、侵犯个人名誉/隐私、夸张误导、炒作、不当暗示、宣扬低俗、煽动仇恨歧视、破坏宗教政策、散布谣言、污蔑正面人物、诱发未成年人不良行为或嗜好等违法违规信息。
原因二:自有插件报错。
✅优化方案:
开发者为智能体自主创建的插件若存在“无法正常返回结果”、“返回内容超限”等问题,也会导致智能体因无法获取回答问题所必要的信息而产生错误,因此建议仔细检查您为智能体配置的自有能力插件是否可正常可用,且因受模型输出字符限制,不建议通过插件返回过长的内容。
其他调优参考
“问答效果”(指智能体与用户的对话质量)是智能体质量的核心影响因素,对智能体获取流量有着重要影响。“智能分析”功能暂未对“问答效果”给出分析结论,但我们提供了以下一些智能体与用户对话时常出现的几种问题供参考,建议开发者仔细阅读了解,自测、调优,以便获取更多流量。
问题一:未使用必要工具
释义: 智能体缺少或未调用回答问题必需的插件或知识库。
🌰示例:“快递查询”智能体没有为其添加能查询快递的插件,或智能体未意识到需调用相关插件查询,导致智能体仅凭自身数据无法准确解决用户“查快递”需求,进而导致回答信息有误或不满足需求。
🤔问题原因
模型有能力边界,部分功能需要依赖外部能力。
人设里要求了智能体要在特定场合用指定工具/格式解答用户,但实际回答时并未遵循要求。
✅优化方案:
1.检查智能体是否挂载回答问题所需插件/知识库,如没有,需要选择调用或开发相关插件。
2.如智能体有相关插件或知识库,可尝试在“人物设定”中强调使用时机。例如“在用户需要查快递时,根据用户提供的快递单号,调用xx插件/知识库进行查询和反馈”。
3.仔细检查测试智能体是否有按人设要求使用工具或按要求格式回答,如没有则需进行进一步调优。
问题二:回答未满足用户需求
释义: 智能体的回答与用户提出的问题相关性不足、答非所问,或缺乏具体性、实用性、针对性。
🌰示例1:
用户提问:感冒了怎么办?
智能体回答:感冒是一种常见的急性上呼吸道病毒性感染性疾病,多由副流感病毒、冠状病毒、腺病毒等引起。
🌰示例2:
用户提问:给我画一只鸟。
智能体回答:看来你是个画画小能手呢!但我不会画画哦。
🤔问题原因
原因一:智能体具备回答问题所需能力或信息,但智能体未识别到用户的具体意图。
✅优化方案:
1.如智能体调用的插件可解决用户问题,但并未触发,可于“人物设定”的思考路径中增加说明及案例解析。例如智能体是“童话故事”,调用“一格生图”插件,用户提问“给我生成带图的童话故事”,我们可以在“人物设定”中说明“当用户要求故事里带图片时,使用 getImage 插件基于故事内容生成图片后再输出故事内容”。
2.如智能体关联的知识库中有对应答案,建议优化知识库中答案所在段落的描述,概括段落核心,减少行业黑话,避免智能体理解混淆,格式建议参考知识库模板。同时也可于“人物设定”中增加案例解析,帮助智能体理解某些提问关键词在知识库里的指代。举例,用户提问“ Prompt 撰写技巧”,知识库里写的是“提示词撰写技巧”,则我们可以在“人物设定”中告诉智能体“ Prompt 即为提示词”。
3.如用户问题的解决依赖开发者自有插件,则建议优化 “description_for_model(插件功能描述)”以及自有插件的返回结果。
4.对于以上情况,也可通过在“人物设定”里强调“必须使用xx插件/知识库来回答xx类问题”的方式,增加调用率。
原因二:智能体不具备解答用户问题所需的知识或能力。
✅优化方案:
1.基于无法回答的知识领域补充知识库,或开启“联网搜索”功能,辅助智能体获得相关知识。
2.避免做没有赋予过相关能力的引导。例如智能体若无“快递查询”插件或知识库,则不要在名称、简介、开场白、引导示例中提及可支持快递查询。
问题三:回答信息有误
释义: 智能体的回答与已知客观事实不符、逻辑混乱、信息缺失、或提供的链接等与用户问题不对应。
🌰示例:
用户提问:一年有几个节气。
智能体回答:一年有 23 个节气,具体可通过中国政府网【www.*****.cn/zhuanti/2016jieqi/index.htm】进行了解。(实际是 24 个,且提供的网址也有误)
🤔问题原因:
智能体不具备回答该问题的相关知识,或对知识的相关性、准确性判断有误。
✅优化方案:
1.在智能体配置中开启“联网搜索”功能,或增加能够帮助智能体查询外部信息的相关插件。
2.补充能够回答对应问题的知识库。
3.仔细检查人设、知识库、插件、开发者调试问答里是否存在不实内容、错误网址、错别字、过时信息等。
问题四:回答信息过时
释义: 智能体的回答包含过时的资料数据。
🌰示例:
用户提问:北京92号汽油价格(假设当天是 2024 年 8 月 8 号,实际汽油价格是 8 元/升)
智能体回答:8.11 元/升(这是 2024 年 7 月的价格而非当天,因此属于信息过时且有误)
🤔问题原因:
智能体不具备回答该问题的相关知识,或对知识的相关性、准确性判断有误。
✅优化方案:
1.在智能体配置中开启“联网搜索”功能,或增加能够帮助智能体查询外部信息的相关插件。
2.补充能够回答对应问题的知识库,可考虑使用“网址提交”的方式导入知识库,平台会自动抓取网址中的内容到知识库,且支持自动更新,进而提升信息时效性。
问题五:未结合上下文回答
释义: 智能体在当轮对话中,遗忘了用户前几轮对话中的关键信息,导致对用户问题理解偏差,出现回答错误。
🌰示例:
用户第一轮提问:北京最推荐景点是什么?
智能体回答:最推荐的是故宫,因为……。
用户第二轮提问:票价多少
智能体回答:由于我不知道您说的是哪个景点,因此无法提供票价。
🤔问题原因:
原因一:智能体未理解用户问题与上文有关联。
✅优化方案:
1.可通过人物设定或工作流让智能体自动补全或采集用户上文的信息。例如“北京旅游攻略”智能体,可在“人物设定”中说明“若用户没给出出发地,则从前几轮对话中推理,或默认从北京当地出发”。
2.工作流中,可增加“输入”参数,采集用户过往提及的关键信息。例如用户第一轮提及了自己在北京生活,第三轮对话中在没给出出发地的情况下,可增加“输入”参数采集用户前几轮提到的自己的所在地。
原因二:智能体未开启长期记忆功能。
✅优化方案:
对于用户可能会提及“过往”的智能体类型,例如“虚拟女友”类智能体,建议开启长期记忆功能,以便智能体能总结聊天内容,用于更好的回答用户问题。
问题六:“开场白问题”质量差
释义: 智能体“开场白问题”是用于为用户提供一种提问示例,模拟的是用户对智能体的提问。用户点击“开场白问题”会自动输入问题并提问。如果该问题的回答效果不好,也会影响智能体的质量评价。
🌰示例1——未提供具体信息
开场白问题:我体重xx,性别xx,年龄xx,请提供一份减肥计划。
错误原因:没有提供具体的、可供智能体分析的信息。正确应该是“我体重 75KG,男,30岁,请提供减肥计划”。
🌰示例2——指代模糊:
开场白问题:这个题怎么解?
错误原因:没有说具体是哪道题。正确应该是 “2x²–6x–8怎么因式分解”。
🌰示例3——提问主体错误:
开场白问题:我可以为你解答情感问题。
错误原因:开场白问题是模拟用户向智能体说的,而非智能体和用户说的话。
🌰示例4——超出能力范围:
开场白问题:帮我订一个附近的酒店。(但实际智能体无订酒店能力)
错误原因:开场白问题超出智能体能力范围。
✅优化方案:
1.用代表用户的语气设置问题,提问要信息完整无歧义。避免用 “这个/我的/那天/xx” 等不明确指代。
2.设置完“开场白问题”,在预览调优界面逐个测试回答效果,对回答不好的进行替换或修改。不要设置智能体难回答的问题。
3.建议至少设置 3 条“开场白问题”,每条不超过 30 字。