当下最适合财会人的AI大模型，我们找到了！

程序员鑫港

于 2025-05-15 21:30:49 发布

阅读量1k

点赞数 16

文章标签：人工智能面试职场和发展 langchain 学习

本文链接：https://blog.csdn.net/a2875254060/article/details/147992282

版权

PART1 背景简介

在当下AI大模型千帆竞渡、百舸争流的背景下，如何选择一款满足自身需求的大模型，成为了众多使用者面临的重大难题。

前排提示，文末有大模型AGI-CSDN独家资料包哦！

鉴于目前尚无对各AI大模型在财务专业领域表现的综合性评价，本期我们挑选了目前国内外免费的主流大模型，并基于自主建立的评价体系展开测评，以期选出现阶段最适合财会人员使用的大模型！

PART2 整体测试结果

在参与测试的12款大模型产品中，清华智谱清言得分GLM-4得分最高，为77.6分，ChatGPT 3.5得分最低，为26.1分，整体测试结果如下：

PART3 测试方案

【评估维度】

会计主观题考题打分，从【审计实务】、【会计分录】、【税法规定】、【管理会计】、【财务管理】五个方向一共提出10个CPA难度的会计主观题
问答响应速度
是否具备自建智能体（Agent）能力
是否具备多模态理解能力（支持上传图片、Word、PDF、Excel）
是否具备联网搜索且显示回答来源的能力
SuperCLUE得分（中文通用大模型综合性测评基准），该基准评估维度包括以下方面：

【测试对象】

ChatGPT 3.5、通义千问、云雀大模型（豆包）、kimichat、百川智能、文心一言3.5、清华智谱清言GLM-4、讯飞星火、360智脑、腾讯混元、面壁露卡、天工（本文所使用的AI大模型均是目前国内外主流免费大模型）

在这里插入图片描述

【打分细则】

在这里插入图片描述

【统一Prompt提示词设计】

为了提高大模型回答的精确度，我们设计了如下统一提示词：

在这里插入图片描述

PART4 各维度测试结果展示

各维度整体回答情况如下表：

在这里插入图片描述

1.会计考题得分情况

从结果可以看出考题得分最佳的是清华智谱清言GLM-4 69分，最差的是ChatGPT3.5 25.5分；所有大模型平均得分为55.875分。

在这里插入图片描述

2.问答相应速度得分情况

从结果可以看出在12个大模型中，有8个大模型回答响应速度较快，可以在短语4秒到时间内生成100字；而4个大模型相对较慢，生成100字需要花费4-8秒的时间。

在这里插入图片描述

3.自建智能体（Agent）能力得分情况

从结果可以看出仅有清华智谱清言GLM-4、讯飞星火、天工完全具备自建智能体（Agent）能力。云雀大模型（豆包）、360智脑虽然在一定程度上具备自建智能体（Agent）能力，但功能并不完备。其余AI大模型测试发现完全不具备自建智能体（Agent）能力。
在这里插入图片描述

4.多模态理解能力得分情况

从结果可以看出通义千问、kimichat、清华智谱清言GLM-4支持上传图片、Word、PDF、Excel每一种类型的文件。ChatGPT 3.5、云雀大模型（豆包）、360智脑任何形式的文件均不支持上传。其余6种AI大模型支持其中的1-3种文件类型的上传。
在这里插入图片描述

5.联网搜索且显示回答来源的能力得分情况

从结果可以看出云雀大模型（豆包）、kimichat、百川智能、文心一言3.5、清华智谱清言GLM-4、天工均具备联网搜索且显示回答来源的能力。其余AI大模型均不具备该项能力。

在这里插入图片描述

6.SuperCLUE得分情况

从结果可以看出清华智谱清言GLM-4以86.77的高分占据第一，通义千问以85.7的分数位列第二，面壁露卡得分最低，为40.66。

在这里插入图片描述

PART5 总结与思考

基于我们的测试结果，当前适合财会人员使用的免费大模型排名如下：

在这里插入图片描述

关于本次测试，还有如下几点说明和总结：

1.我们的问题选择、答案打分、评价体系设计都带有一定的主观性，此外由于测试题目数量有限无法全面衡量各大模型的财务能力，所有得出的结论仅是我们的一得之见，结果仅供参考，也相信大模型在后续的更新迭代中会有更好的表现。

2.可以发现ChatGPT分数不算高，可能因为我们的问题均为中国会计准则相关，由于国产大模型本土化水平较高，因此表现较好，而ChatGPT则在中文语境下回答质量欠佳；此外，由于目前ChatGPT仅有3.5版本免费，我们没有将能力更强的GPT-4纳入测试范围。

3.问题中有几道计算题模型给出了正确的公式，但是计算准确度不高，代入数字之后产生了错误，这可能说明大模型本身还是语言模型，在不调用代码能力的情况下，在计算上有所欠缺。比如ChatGPT就犯了如下计算错误。
在这里插入图片描述

4.智谱清言得分较高的一大原因是在部分主观题中，其依托联网能力直接在相关准则中检索到了正确答案。如下图，智谱清言直接给出了参考的准则链接。

在这里插入图片描述

5.目前大模型的会计分录生成能力普遍较差，改善并不明显，记录科目不准确、借贷不平、基本只会一借一贷的现象仍普遍存在。

6.为了保证测试结果能让广大财务同仁看得见、用得上，我们仅选用了当前免费版本的大模型产品参与测试，性能更好的付费版例如文心一言4.0，GPT-4并不在此次测试的范围内。

在这个AI大模型“百模大战”的时代，我们见证了科技的飞速发展，同时也感受到了财务人员在时代浪潮中的困惑与迷茫。

我们希望通过这次评测，降低信息不对称，让大模型的便利触达更多财务人的工作，帮助财务人员在这场科技盛宴中找到属于自己的“利器”，提升财务工作的幸福感。我们诚挚地邀请大家一起分享、传播这次评测的结果，让更多的行业同仁受益！

读者福利：如果大家对大模型感兴趣，这套大模型学习资料一定对你有用

对于0基础小白入门：

如果你是零基础小白，想快速入门大模型是可以考虑的。

一方面是学习时间相对较短，学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括：大模型学习线路汇总、学习阶段，大模型实战案例，大模型学习视频，人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型！
在这里插入图片描述

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

👉AI大模型学习路线汇总👈

大模型学习路线图，整体分为7个大的阶段：（全套教程文末领取哈）

第一阶段： 从大模型系统设计入手，讲解大模型的主要方法；

第二阶段： 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段： 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段： 大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段： 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段： 以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段： 以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频，看书籍和视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。
在这里插入图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求： 大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能， 学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力： 大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓