「数字风洞」AI大模型测评

最新推荐文章于 2024-10-09 15:33:52 发布

S0linteeH

最新推荐文章于 2024-10-09 15:33:52 发布

阅读量521

点赞数 3

文章标签：人工智能

本文链接：https://blog.csdn.net/S0linteeH/article/details/141605559

版权

7月16日，网络热门话题“13．11％和13．8％究竟哪个大”引发媒体关注，有媒体拿着这一问题向12个知名问答大模型发起提问，结果发现这些大模型多数都无法正确回答。随后报道称，“一道小学生难度的数学题竟然难倒了一众海内外AI大模型。”在行业内中相关报道也吸引了大量的转发。

关于大模型对数字小数部分识别混淆的问题，行业内早有关注。其本质原因并非是在数学计算方面遇到了困难，而是因“分词器”拆解错误和大模型技术架构使然，导致在审题时陷入了误区。除了数学类问题之外，包括在复杂字母图形的识别，复杂语句的梳理等场景下也都存在类似逻辑推理能力缺陷问题。

在大模型专业技术领域，包括复旦大学、布里斯托大学的研究团队都已经发表过多篇论文，就大模型易陷入逻辑推理误区的问题展开探讨。本文中，永信至诚智能永信团队在AI大模型安全测评「数字风洞」平台的大模型竞技场中对这一现象进行了复现，详细展示相关技术原理。

同时结合这一技术原理，智能永信团队对阿里通义千问、百度千帆大模型、腾讯混元大模型、字节豆包大模型、360智脑等17个大模型产品开展同场横向对比，通过基础逻辑陷阱类问题，真实测评各家大模型的表现。

「数字风洞」平台已将“大模型竞技场”功能面向体验用户开放，为大模型开发团队提供横向对比测评的功能，帮助快速检测不同大模型在数学计算、请求代码文档等场景下的回答，以便开发者选择使用开源基座模型进行开发AI应用、Agent或进行训练改进时，更直观对比不同大模型的异常反馈情况，便捷地开展大模型产品选型工作。

在大模型中，每一个输入的问题文本都需要被分解成更小的词元（token）之后再提供给大模型处理，这个分解过程被称为分词（tokenization），分词是自然语言处理任务的基础步骤，而用于分词的工具，便被称为分词器。如果分词器设计不当或遇到复杂的语言结构，可能会出现拆分错误，影响后续的处理结果。

分词器也是连接自然语言文本和机器学习模型的桥梁，在文本预处理的过程中扮演着至关重要的角色。

在处理“11．10和11．1哪个大”这样的数字问题时，分词器会将把“11．10”拆成了“11”、“．”和“10”三部分，而“11．1”则变成了“11”、“．”和“1”。

因为神经网络特殊的注意力算法，AI大模型会通过比对小数点后面数值的大小来生成答案，所以AI大模型会得出结论：“10比1大，所以11．10肯定比11．1大”。

11．10和11．1哪个大？

可以发现，在上述提问中仅有GLM4开源版、深度求索、腾讯混元、百度千帆这四个大模型做出了正确的应答。而MiniMax大模型和360智脑不仅回答错误，还给出了判断依据。

事实上，只需要统一数字格式将小数点后写至百分位，分词器便能够正确识别，进而帮助大模型进行准确的推理判断。

10．14和10．80谁大？

如上图，当分词器把“10．14”拆成“10”、“．”和“14”三部分，把“10．80”拆分成了“10”、“．”和“80”之后，大部分大模型都回答正确。

这证明，不是数学题难倒了一众大模型，而是针对分词器工具的数据训练不够，进而导致了大模型陷入了逻辑推理误区。

大模型集体出错现象也表明，大模型厂商需要构造更多体系化的语料数据对分词器加以训练，才能够在根本上提升分词器的智能性，减少大模型生成内容的错误率。

上述这些示例也再次证明，尽管AI大模型技术已经取得了巨大进步，但即使在处理看似简单的问题时，AI大模型仍可能出现意想不到的错误，大模型的发展需要伴随持续的检测和改进。