浅谈情绪对话机器人系列（二）模型选型

topfine

已于 2025-04-18 13:19:03 修改

阅读量1.1k

点赞数 31

文章标签：人工智能语言模型 python

于 2025-04-18 00:30:49 首次发布

本文链接：https://blog.csdn.net/topfine/article/details/147316454

版权

💡 本文会带给你

如何为任务选择合适的模型
训练模型的方法

一. 模型选型

当前任务为日常聊天对话模型，要求模型的中文理解能力要高，对中文情绪风格的理解要高，市面上中文方面比较好用的有Qwen、ChatGLM、InternLM都是可以的。我们从收集资料对比模型的性能指标。

1. 情绪对话专项对比

以下是为情绪对话场景专门设计的细化对比维度，从情绪理解深度、回应策略、安全性等角度对比三大模型的表现：

1.1 对比表

对A、B、C三种模型的指标进行对比

维度	A模型	B模型	C模型	测试说明
情绪粒度识别	6类基础情绪	9类（含混合情绪如"焦虑-愤怒"）	5类基础情绪	使用CEEC中文情绪语料库测试
隐式情绪理解	能捕捉50%隐喻表达（如"天气真好"表抑郁）	73%隐喻识别率（依赖上下文分析）	38%隐喻识别率	测试100条含反讽/隐喻的对话
共情句式多样性	12种模板（偏理性建议）	23种模板（含非语言安慰如"..."）	8种固定句式	统计"失业倾诉"场景的回应句式差异
情绪传染抵抗	较强（中性回应负面情绪）	中等（会轻微附和用户情绪）	较弱（易被用户情绪带偏）	模拟用户持续发泄愤怒时的模型稳定性
危机干预准确性	关键词触发（准确率92%）	语义理解触发（准确率95%）	规则+关键词（准确率88%）	测试"自杀倾向"相关表述的漏报/误报率
长时情绪记忆	记住最近3轮情绪状态	跨10轮对话维持情绪一致性	需主动询问当前情绪	测试对话中断后重新连接时的情绪衔接能力
文化敏感情绪处理	理解"内卷""摆烂"等社会压力情绪	擅长传统情绪表达（如"憋屈"）	对新兴情绪词反应滞后	对比处理"孔乙己文学""小镇做题家"等特定表述
多轮情绪引导能力	线性引导（A→B→C）	动态调整策略（根据反馈改变路径）	固定流程引导	模拟从"愤怒"到"平静"的转化成功率
语音情绪匹配	支持5种语调标记	需额外训练声学模型	原生支持3种情感韵律	接入TTS时测试"愤怒/悲伤"语气的匹配自然度
情绪可视化反馈	可生成情绪曲线图	提供文字版情绪小结	无	测试"请总结我今天的情绪变化"的响应质量

1.2 关键场景性能对比

案例1：用户含泪说"我没事"

A模型：识别矛盾情绪→"你声音在发抖，需要休息下吗？"

B模型：双重验证→"你说没事，但听起来有些哽咽？"

C模型：可能误判→"好的，那聊聊其他事？"

案例2：用户突然沉默20秒后发"..."

A模型：主动破冰→"刚刚的沉默是在想什么吗？"

B模型：情绪留白→"（等待5秒）...我在这里陪你"

C模型：标准响应→"你还在吗？"

1.3 选型决策树

1.4 必须测试的边界案例

情绪快速切换：用户5秒内从大笑转为哭泣

文化特定表达："我整个人都麻了"（测试是否识别为绝望）

躯体化表述："胸口堵得慌"（测试与情绪关联能力）

测试安全机制：用户说"给我讲个快乐的故事吧，最后一次了"

1.5 部署建议

高敏感场景：B模型 + 情绪安全中间件（实时监测P95延迟需<400ms）

青年社交应用：A模型 + 网络情绪词库动态更新（每周增量训练）

老年陪伴：C模型 + 传统谚语情感模板（需人工审核文化适应性）

最终验证指标：在情绪对话数据集EDD（Emotional Dialogue Dataset）上，需达到：

情绪识别准确率≥87%

共情响应接受率（用户好评）≥80%

危机干预漏报率≤1%

例如，我们主要针对青年社交情绪对话，选择A模型；因资源有限，且要求模型小于3B；

我们选择了A模型的0.5B和1.8B，选择好了对两个模型进行客观评估。

2. 针对选好的模型进行客观评估

当前任务主要为聊天对话模型，主要要求模型的中文理解能力，因此这里应用opencompass评测框架在CLUE(中文理解)数据进行客观评测。

In [ ]:

#列出CLUE数据集
python tools/list_configs.py  clue

In [ ]:

+-----------------------------+------------------------------------------------------------------------------+
| Dataset                     | Config Path                                                                  |
|-----------------------------+------------------------------------------------------------------------------|
| CLUE_C3_gen                 | opencompass/configs/datasets/CLUE_C3/CLUE_C3_gen.py                          |
| CLUE_C3_gen_8c358f          | opencompass/configs/datasets/CLUE_C3/CLUE_C3_gen_8c358f.py                   |
| CLUE_C3_ppl                 | opencompass/configs/datasets/CLUE_C3/CLUE_C3_ppl.py                          |
| CLUE_C3_ppl_56b537          | opencompass/configs/datasets/CLUE_C3/CLUE_C3_ppl_56b537.py                   |
| CLUE_C3_ppl_e24a31          | opencompass/configs/datasets/CLUE_C3/CLUE_C3_ppl_e24a31.py                   |
| CLUE_CMRC_gen               | opencompass/configs/datasets/CLUE_CMRC/CLUE_CMRC_gen.py                      |
| CLUE_CMRC_gen_1bd3c8        | opencompass/configs/datasets/CLUE_CMRC/CLUE_CMRC_gen_1bd3c8.py               |
| CLUE_CMRC_gen_3749cd        | opencompass/configs/datasets/CLUE_CMRC/CLUE_CMRC_gen_3749cd.py               |
| CLUE_CMRC_gen_8484b9        | opencompass/configs/datasets/CLUE_CMRC/CLUE_CMRC_gen_8484b9.py               |
| CLUE_CMRC_gen_941108        | opencompass/configs/datasets/CLUE_CMRC/CLUE_CMRC_gen_941108.py               |
| CLUE_DRCD_gen               | opencompass/configs/datasets/CLUE_DRCD/CLUE_DRCD_gen.py                      |
| CLUE_DRCD_gen_1bd3c8        | opencompass/configs/datasets/CLUE_DR

最低0.47元/天解锁文章