当下最适合财会人的AI大模型，我们找到了！

AGI-杠哥

于 2025-04-16 15:52:41 发布

阅读量847

点赞数 24

文章标签：人工智能开发语言学习 java 服务器运维

本文链接：https://blog.csdn.net/m0_71745484/article/details/147278775

版权

PART1 背景简介

在当下AI大模型千帆竞渡、百舸争流的背景下，如何选择一款满足自身需求的大模型，成为了众多使用者面临的重大难题。

鉴于目前尚无对各AI大模型在财务专业领域表现的综合性评价，本期我们挑选了目前国内外免费的主流大模型，并基于自主建立的评价体系展开测评，以期选出现阶段最适合财会人员使用的大模型！

PART2 整体测试结果

在参与测试的12款大模型产品中，清华智谱清言得分GLM-4得分最高，为77.6分，ChatGPT 3.5得分最低，为26.1分，整体测试结果如下：

PART3 测试方案

【评估维度】

会计主观题考题打分，从【审计实务】、【会计分录】、【税法规定】、【管理会计】、【财务管理】五个方向一共提出10个CPA难度的会计主观题
问答响应速度
是否具备自建智能体（Agent）能力
是否具备多模态理解能力（支持上传图片、Word、PDF、Excel）
是否具备联网搜索且显示回答来源的能力
SuperCLUE得分（中文通用大模型综合性测评基准），该基准评估维度包括以下方面：

【测试对象】

ChatGPT 3.5、通义千问、云雀大模型（豆包）、kimichat、百川智能、文心一言3.5、清华智谱清言GLM-4、讯飞星火、360智脑、腾讯混元、面壁露卡、天工（本文所使用的AI大模型均是目前国内外主流免费大模型）

在这里插入图片描述

【打分细则】

在这里插入图片描述

【统一Prompt提示词设计】

为了提高大模型回答的精确度，我们设计了如下统一提示词：

在这里插入图片描述

PART4 各维度测试结果展示

各维度整体回答情况如下表：

在这里插入图片描述

1.会计考题得分情况

从结果可以看出考题得分最佳的是清华智谱清言GLM-4 69分，最差的是ChatGPT3.5 25.5分；所有大模型平均得分为55.875分。

在这里插入图片描述

2.问答相应速度得分情况

从结果可以看出在12个大模型中，有8个大模型回答响应速度较快，可以在短语4秒到时间内生成100字；而4个大模型相对较慢，生成100字需要花费4-8秒的时间。

在这里插入图片描述

3.自建智能体（Agent）能力得分情况

从结果可以看出仅有清华智谱清言GLM-4、讯飞星火、天工完全具备自建智能体（Agent）能力。云雀大模型（豆包）、360智脑虽然在一定程度上具备自建智能体（Agent）能力，但功能并不完备。其余AI大模型测试发现完全不具备自建智能体（Agent）能力。
在这里插入图片描述

4.多模态理解能力得分情况

从结果可以看出通义千问、kimichat、清华智谱清言GLM-4支持上传图片、Word、PDF、Excel每一种类型的文件。ChatGPT 3.5、云雀大模型（豆包）、360智脑任何形式的文件均不支持上传。其余6种AI大模型支持其中的1-3种文件类型的上传。
在这里插入图片描述