零一万物的Yi-1.5-9B-Chat与智谱清言Chatglm4-9和Chatglm3-6B使用体验与比对(2024-07-02更新)

在这里插入图片描述

前言

本次模型用于RAG实验,由于时间和财力所限。只用3个线下模型一个线上模型进行比对,开源万岁~L(‘ω’)┘三└(‘ω’)」
线下模型为
零一万物的:Yi-1.5-9B
智谱旗下的:Chatglm3-6B
智谱旗下的:Chatglm4-9B
先说结论:个人整体性能下比对结果 Yi-1.5-9B ≈ Chatglm4-9B > Chatglm3-6B

简介

李开复「零一万物」公司的Yi-1.5可以说是Yi的升级版本。Yi-1.5 包括一系列预训练和微调模型,分为 6B、9B、34B 三个版本。它使用 500B tokens的高质量语料库训练,还有 3M 个多样化的微调样本进行微调。
效果不错~排名又涨了一波。
在这里插入图片描述

选择该模型的原因

本来RAG使用的模型为GLM3-6B。但遗憾的是,受限于模型参数大小+通用原生模型的知识。在面对稍微比较复杂的逻辑时。哪怕知识库能提供比较准确的信息时,模型的回答效果还是一言难尽。使用GLM4的api时效果就好一些但是不稳定。(不稳定的原因是开发GLM4的大佬们更新权重太频繁了,一样的问题和提示词,哪怕temperature设到最低。隔一天答案都能不一样o(╥﹏╥)o)

而本地部署的GLM3-6B模型由于模型尺寸大小影响有2个问题:

  1. 当规则字段较长时,经常容易忘记某些规则。
  2. 在空间的语义理解上终究还是差了那么一丢丢意思。比如“上下左右”的空间概念理解是很糟糕的。(至少在我的提示词里是这样的效果,狗头保命)
    当然理论上可以通过微调将其适配化模型,但是我没那么多数据,并且我希望能通过不断更换提示词,让同一个通用大模型可以应用于多种任务。毕竟我的算力没那么富裕。在我头疼的时候,我突然看到有宣传说:
    Yi-1.5 系列模型进一步提升了编码、数学、推理和指令遵循能力。并附上这图~~~~
    在这里插入图片描述
    那么空间理解能力会不会也不错?行吧,那就试试。至于结果图嘛,搞丢了,得过几天再重新运行后再补图
    <( ̄ ﹌  ̄)>
    在这里插入图片描述
    (2024-07-02更新)很遗憾,由于数据敏感原因,无法透露。(因此结论你们就当是我个人不成熟的口嗨~)个人使用比对后返发现
    在响应上的的理解上: glm3 > glm4 > Yi-1.5
    这其实是个废话,毕竟6B肯定比9B快,不过在9B中,glm4在读取和响应上都略快于零一一丢丢。原因未知~

在文字的语言理解能力的的理解上: glm4 > Yi-1.5 > glm3
显然,文字理解能力越好,则我们给其描述任务要求或规则时,对字句就越不需要斟酌。就像是知己,你说上句,它就知道你要说的下句。反之亦然。

在文字的空间理解能力的的理解上: Yi-1.5 > glm4 > glm3
什么是空间理解能力呢?(我的业务需要的能力指标,非大众指标)
定义n个空间,每个空间有自己的简单数值范围定义。然后传入对多个空间数值的简易描述。模型即可求出对应的数值。

总结

虽然我们经常听说有大厂把大模型小型化了,甚至装上手机。但是很遗憾,就目前而言,在没有全新的架构下,模型的智力水平理解能力既和训练样本有关,也和模型尺寸成正比。GLM3确实有是很优秀,但终究是6B。
综上所述:
业务简单时且追求速度时,推荐glm3
规则有点复杂,无需空间理解能力时,推荐glm4
一旦涉及空间理解能力后,建议使用Yi-1.5,如果还规则复杂的话,那就慢慢改提示词吧( ̄▽ ̄)~* 。

总之效果就是Yi-1.5-9B-Chat效果不错,不然我也不会写这个了。
在这里插入图片描述

题外话:

RAG当涉及空间复杂理念时,个人建议最好只许一次交流。不然多次交流后容易爆发胡言乱语。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值