评测AI 在金融领域的能力：开源大语言模型的比较分析

本文链接：https://blog.csdn.net/alvincho/article/details/138247349

文章详细描述了一项评估开源大型语言模型在金融问答任务中的研究，重点关注模型在理解金融术语和执行基本财务推理方面的表现。研究使用OLLAMA工具，通过量化比较，发现LLama3:70b系列模型表现最优，但也揭示了模型性能的可变性和提示模板的重要影响。

摘要由CSDN通过智能技术生成

造访我们的GitHub 储存库：造访我们的GitHub 页面以探索资料集、下载程式码并查看与我们的开源大型语言模型测试相关的文件。该储存库旨在为教育工作者、研究人员和任何对人工智慧模型测试感兴趣的人提供资源。

介绍：

在快速发展的金融世界中，人工智慧的整合已成为推动创新解决方案和增强决策流程的基石。最近，我踏上了一段迷人的旅程，评估专门针对金融问答场景量身定制的各种开源大型语言模型(LLM) 的功能。我的目标是了解这些模型在标准化提示设定下的执行情况，其中每个模型都充当“财务分析师”，以JSON 格式简洁地回答查询。该分析不仅揭示了人工智慧在金融查询中的现状，而且旨在指导金融科技领域的未来发展和实施

测试目的

此探索性分析的主要目标是确定哪种开源大型语言模型最适合处理金融领域的特定任务。此初步测试着重于两个关键领域：

金融术语理解：每个模型准确理解和回应涉及复杂金融术语的查询的能力。这对于确保金融领域人工智慧应用的可靠性和资讯量至关重要。
基本财务推理：评估每个模型执行有关交易和投资情境的基本推理的能力。这包括了解市场动态、预测潜在的财务结果以及根据给定数据提供初步财务建议。

目的是确定哪个大语言模型能够为这些任务提供最有效和最准确的表现，为未来金融服务中的AI应用提供有价值的处理能力。透过进行这种分析，我们可以更了解每种模型的优点和局限性，并指导开发人员和企业根据其在金融领域的特定需求选择合适的人工智慧工具。

方法

为了对用于财务问答任务的开源大型语言模型(LLM) 进行全面评估，采用了一种结构化且可复制的测试方法，使用以下方法：

使用的工具：

ollama ：所有测试都是使用ollama进行的，它可以在不同的法学硕士之间进行一致和公平的比较。该工具提供了一个标准化环境，可以在相同条件下运行每个模型。
资料集创建：
问题生成：此测试的资料集是使用ChatGPT-4 产生的，确保每个问题都与金融术语和基本交易概念相关。这种方法有助于维持资料集的品质和特异性，并专注于金融领域。 Basic Financial Q&A v0.3资料集可以从GitHub下载。
答案验证：每个问题都设计有一个简单、可验证的答案，以便对模型输出进行直接评估，确保可以客观地评估每个模型的准确性。

测试执行：

重复试验：每个模型都会对每个问题进行多次处理，以考虑反应的变异性。这种重复有助于评估每个模型在提供正确可靠答案方面的一致性。
问题的一致性：为了确保所有模型在相同的条件下进行评估，所有测试都使用相同的提示范本。模型被指示充当金融分析师，仅以预先定义的JSON 格式进行回应，严格关注答案，无需额外解释。

这种方法不仅为评估每个大语言模型的能力提供了一个强大的框架，而且还确保研究结果是基于一致和透明的测试过程。

物理环境

为了提供一个高效且有效的测试环境来评估开源大型语言模型在金融问答任务上的性能，我们开发了一个尖端的 Multi-Agent System 多代理系统。此设定利用了多台 Mac 电脑的高级功能，特别是利用了它们的高效能功能。以下是设定概述：

使用的硬体：

配备M2 Ultra 晶片的Mac Studio：我们的测试环境的骨干由多个配备M2 Ultra 晶片的Mac Studio 设备组成，具有192GB 统一记忆体。这种强大的配置特别适合运行大型模型，例如我们测试的1320 亿参数模型，确保平稳运行和快速处理时间，而不会影响计算效率。
配备M2 和M3 晶片的Mac Mini：配备高达64GB 的小型Mac 统一内存，适合较小模型的工作。