零一万物的Yi-1.5-9B-Chat与智谱清言Chatglm4-9和Chatglm3-6B使用体验与比对（2024-07-02更新）-CSDN博客

本文链接：https://blog.csdn.net/weixin_42179685/article/details/139094867

在这里插入图片描述

前言

本次模型用于RAG实验，由于时间和财力所限。只用3个线下模型一个线上模型进行比对，开源万岁~L(‘ω’)┘三└(‘ω’)｣
线下模型为
零一万物的：Yi-1.5-9B
智谱旗下的：Chatglm3-6B
智谱旗下的：Chatglm4-9B
先说结论：个人整体性能下比对结果 Yi-1.5-9B ≈ Chatglm4-9B > Chatglm3-6B

简介

李开复「零一万物」公司的Yi-1.5可以说是Yi的升级版本。Yi-1.5 包括一系列预训练和微调模型，分为 6B、9B、34B 三个版本。它使用 500B tokens的高质量语料库训练，还有 3M 个多样化的微调样本进行微调。
效果不错~排名又涨了一波。
在这里插入图片描述

选择该模型的原因

本来RAG使用的模型为GLM3-6B。但遗憾的是，受限于模型参数大小+通用原生模型的知识。在面对稍微比较复杂的逻辑时。哪怕知识库能提供比较准确的信息时，模型的回答效果还是一言难尽。使用GLM4的api时效果就好一些但是不稳定。（不稳定的原因是开发GLM4的大佬们更新权重太频繁了，一样的问题和提示词，哪怕temperature设到最低。隔一天答案都能不一样o(╥﹏╥)o）

而本地部署的GLM3-6B模型由于模型尺寸大小影响有2个问题：

当规则字段较长时，经常容易忘记某些规则。
在空间的语义理解上终究还是差了那么一丢丢意思。比如“上下左右”的空间概念理解是很糟糕的。（至少在我的提示词里是这样的效果，狗头保命）
当然理论上可以通过微调将其适配化模型，但是我没那么多数据，并且我希望能通过不断更换提示词，让同一个通用大模型可以应用于多种任务。毕竟我的算力没那么富裕。在我头疼的时候，我突然看到有宣传说：
Yi-1.5 系列模型进一步提升了编码、数学、推理和指令遵循能力。并附上这图~~~~

那么空间理解能力会不会也不错？行吧，那就试试。至于结果图嘛，搞丢了，得过几天再重新运行后再补图
<(￣﹌￣)>

（2024-07-02更新）很遗憾，由于数据敏感原因，无法透露。（因此结论你们就当是我个人不成熟的口嗨~）个人使用比对后返发现
在响应上的的理解上: glm3 > glm4 > Yi-1.5
这其实是个废话，毕竟6B肯定比9B快，不过在9B中，glm4在读取和响应上都略快于零一一丢丢。原因未知~

在文字的语言理解能力的的理解上: glm4 > Yi-1.5 > glm3
显然，文字理解能力越好，则我们给其描述任务要求或规则时，对字句就越不需要斟酌。就像是知己，你说上句，它就知道你要说的下句。反之亦然。

在文字的空间理解能力的的理解上: Yi-1.5 > glm4 > glm3
什么是空间理解能力呢？（我的业务需要的能力指标，非大众指标）
定义n个空间，每个空间有自己的简单数值范围定义。然后传入对多个空间数值的简易描述。模型即可求出对应的数值。

总结

虽然我们经常听说有大厂把大模型小型化了，甚至装上手机。但是很遗憾，就目前而言，在没有全新的架构下，模型的智力水平和理解能力既和训练样本有关，也和模型尺寸成正比。GLM3确实有是很优秀，但终究是6B。
综上所述：
业务简单时且追求速度时，推荐glm3。
规则有点复杂，无需空间理解能力时，推荐glm4。
一旦涉及空间理解能力后，建议使用Yi-1.5，如果还规则复杂的话，那就慢慢改提示词吧(￣▽￣)~* 。

总之效果就是Yi-1.5-9B-Chat效果不错，不然我也不会写这个了。
在这里插入图片描述