根据task2提示,本文记录了对baseline进行改进的过程
1.ASR改进
首先,将原来的sensevoiceAPI进行替换,替换为小红书团队在25年最新发布的FireRedASR模型,该ASR模型经过了KeSpeech方言数据训练,能够更加准确的识别中国方言。首先利用该模型进行语音转文本,得到测试集对应的文本数据,供后续使用。
2.意图识别
由于调用API处理4000条数据较慢,所以在本地部署了DeepSeek7b的模型来进行本地推理,速度远快于api且对ASR处理成功率100%,得到一份较为标准的output。
3.菜单匹配
同Datawhale教程,这里的思路是使用llamaindex框架,通过语义相似性匹配excel中对应的数据进行匹配。通过计算语义相似度,如果最后一列有菜名的情况下选择菜单中语义相似度最高的菜品名进行替换;如果最后一列为空,则将倒数第二列置为0代表不是点菜任务,最终输出结果output_update进行提交,得到0.8838分的分数。