创新项目实训——psyLLM效果评估

这里对我们使用微调/rag技术得到的psyLLM和原本未经过调整的ChatGLM进行对比和评估。

一、具体问题表现

因为我们使用的训练数据都是对话数据集,目的是想要提升模型对人们日常生活中各种情感琐事等的理解能力,所以我们准备的问题都是与之较为相关的对话类问题。

问题一:最近失恋了,心情不好

原本的chatglm:

微调后的模型:

rag后的模型:

问题二:想回家吃妈妈做的红烧肉了

原本的chatglm:

微调后的模型:

微调+rag:

问题三:最近工作很忙,时间安排不过来,不知道该怎么办了

原本的chatglm:

微调后的模型:

rag后的模型:

从上面的这些问题可以看出原本的ChatGLM模型对对话式的问题总是返回条目式的结果,与其沟通并不像与人沟通一样自然;微调和rag改善了这一情况,虽然加上rag可能会因为知识库中存在不相关的内容返回导致误导模型的回答,但对于知识库中较为相关的问题还是能够很大程度上提升回答质量。微调的效果显得比较生硬,经过检查后发现是 部署的基础模型本身参数量不如我们使用的基本模型的原因。

二、问卷调查结果

我们对原本的模型和我们使用微调+rag改进后的模型进行问卷调查,让参与调查的同学在使用过我们两个模型后,对两个模型进行盲审打分。

其中分四个打分指标:模型回答的易理解程度、切中心理感受程度、合理性、逻辑性

模型1:6.44,6.61,6.5,6.5

模型2:7.29,7.47,7.35,7.53

下面给出部分打分结果的展示:

请给模型1/2回答的易理解程度打分  

分析结论:模型1回答的易理解程度评分主要集中在6分和7分,分别占比52.94%23.53%,合计76.47%。可以得出结论,大部分受访者认为模型1回答的易理解程度在中等偏上水平。模型2回答的易理解程度评分主要集中在7分和8分,分别占比35.29%47.06%,合计超过80%。说明大多数人认为模型2回答的易理解程度较高,处于中高水平。

模型1易理解程度:

模型2易理解程度:

 

总结:

模型1评分情况
模型1易理解程度方面,大部分受访者给出了6分(52.94%)和7分(23.53%)的评分,整体易理解程度较高。
模型1的回答切中心理感受程度方面,大部分受访者给出了7分(52.94%)的评分,说明模型1在切中受访者心理感受方面表现较好。
在合理性和逻辑性方面,受访者对模型1的评分相对较为均衡,合理性主要集中在6-8分之间,逻辑性主要集中在6-8分之间。

 模型2评分情况
模型2易理解程度方面,大部分受访者给出了8分(47.06%)的评分,易理解程度较高。
模型2的回答切中心理感受程度方面,受访者给出的评分相对较为均衡,主要集中在7-8分之间。
在合理性和逻辑性方面,受访者对模型2的评分也相对均衡,合理性主要集中在7-8分之间,逻辑性主要集中在7-8分之间。

  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值