论文链接:https://arxiv.org/pdf/2502.17967v1
代码链接:https://github.com/wekjsdvnm/Agent-Trading-Arena.git
“ 大模型(LLMs)在自然语言处理任务上表现优异,但在数值推理的泛化能力上仍面临挑战。现有的基准测试主要评估预定义最优解的问题,与现实场景不符。本文设计了agent交易竞技场(Agent Trading Arena),通过零和游戏模拟复杂经济系统。实验发现LLMs处理纯文本股票数据时代数推理能力弱,而处理可视化数据(如散点图或K线图)时几何推理能力显著更好,反思模块能进一步提升这种能力。在纳斯达克股票数据集上验证了结果,表明LLMs对视觉数据的推理能力强于文本数据。”
01.背景
LLMs在多种自然语言处理任务中取得了最先进的结果,但在数值和几何推理方面的进一步提升对解决复杂跨学科挑战至关重要。现有的数学基准测试虽有助于评估和改进LLMs的数学解题能力,但存在局限性,主要评估模型熟悉的问题,难以确定LLMs是否真正具备对新数值数据的推理能力。需要新的评估范式来评估LLMs推广到未见过场景的能力。
02.问题定义
评估LLMs在动态、未见过的数值推理任务中的能力,特别是在与现实更接近的金融场景下,探究LLMs在代数推理(处理文本数值数据)和几何推理(处理可视化数值数据)方面的表现差异。
03.方法
3.1 agent交易竞技场(Agent Trading Arena)
结构:如下图是一个闭环经济系统,为零和游戏。资产价格由买卖报价系统决定,引入股息机制(包括资产价格差的资本收益和持有资产的股息),同时agent需支付与总财富成比例每天的资本成本,以刺激市场活动并确保游戏公平性。
agent学习与竞争:零和游戏结构消除了通用最优策略的可能性,agent在不知隐含规则下,通过体验式学习来解读隐藏游戏规则以获胜,需要理解数值反馈、制定策略并做出决策。
3.2 数值数据输入类型
文本数值数据的局限性:在ATA中,LLMs直接处理数值格式的股票数据时存在困难,转换为文本格式后仍有局限。LLMs往往过度关注特定值,难以识别长期趋势、全局模式、理解相关关系和百分比变化,还会过度强调近期数据而忽视历史信息。
可视化数值数据的潜力:从文本数值数据输入转换为可视化格式(如散点图、折线图和柱状图),可视化表示有助于LLMs更好地理解整体趋势、模式和关系,克服处理时间序列数据关系时的挑战。
反思模块:采用一种策略蒸馏方法,分析描述性文本和可视化数值数据以提供实时反馈,生成新策略并优化行动计划。过程包括评估日轨迹记忆和相关策略,通过对比分析绩效最佳和最差者创建双向学习信号,迭代循环以不断进化策略。在agent交易竞技场中定期触发,记录每日交易,评估策略有效性,存储无效策略以供参考。
04.实验
4.1 实验设置
数据集:开发了agent交易竞技场作为控制环境,部署至少九个agent和三种股票,所有agent初始资本相同。还选择了纳斯达克股票数据集的一个子集用于投资组合投资。
评估指标:包括总回报(TR)、胜率(WR)、夏普比率(SR)、平均日回报(Mean)、日回报标准差(Std)。
4.2 对比实验
文本或可视化输入试验:将文本数值输入转换为可视化格式(如K线图、交易历史和交易量)进行实验。在不同的LLMs中,有可视化数值输入的agent表现优于仅有文本输入的agent,同时接收文本和可视化输入的agent性能最佳。
反思与文本或可视化输入试验:引入反思模块后,有反思模块的仅文本LLMs回报增强,结合两种输入类型比仅用文本输入回报更高。在总回报和夏普比率方面,有反思模块的LLMs在可视化输入时改进最大,进一步扩大了LLMs在视觉几何推理和文本数值代数推理能力之间的差距。
纳斯达克股票数据集模拟:进行了为期两个月的投资模拟,初始资本为10万单位。结果显示,尽管其他模型(如StockFormer和TimesNet)有更长的训练期和更大的数据集,但本文模型表现更优。有文本和视觉输入的agent在夏普比率上分别优于纳斯达克-100和标普500指数。
4.3 消融实验
模态对LLM性能的影响:采用相对评估方法,结果表明DeepSeek在不同LLM环境中表现出更强的性能。
不同LLMs之间的对比(有反思):进行消融研究,结果显示在有反思的对比中,GPT-4o和Qwen-2.5优于其他模型。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。