使用LLMs自动生成的代码进行金融和股票数据预测

The Performance of the LSTM-based Code Generated by Large Language Models (LLMs) in Forecasting Time Series Data

对于一般金融从业人员来说,编写代码存在一定的门槛。人工智能发展火热的当下,使用AI模型进行金融和股票预测成为了一项必不可少的技能,那么对于没有编程经验的金融从业人员来说,是否可以借助大模型的能力自动生成预测分析代码呢?

今天的这篇文章详细分析了使用当前热门的大模型生成的代码进行模型开发及训练,并进行金融和股票预测的过程及结果,让我们来看看效果吧。

论文地址:https://arxiv.org/pdf/2411.18731

摘要

生成式AI,尤其是大型语言模型(LLMs),在多个领域应用广泛,尤其是在生成文本信息方面。本文探讨LLMs在自动化科学数据分析中生成深度学习模型和可执行代码的能力,特别是针对时间序列数据的分析。研究比较了ChatGPT、PaLM、LLama和Falcon等主流LLMs在生成深度学习模型的表现,实验控制了四个敏感性标准:明确性与具体性、目标与意图、上下文信息、格式与风格。

结果显示,使用LLMs生成的深度学习模型在性能上与手动优化的LSTM模型相当,且ChatGPT表现最佳。生成模型的质量受LLMs配置的“温度”参数影响,结果对数据分析师和从业者在利用生成式AI构建预测模型具有参考价值。

简介

大型语言模型(LLMs)如ChatGPT、LLaMa、Falcon和PaLM在日常任务中越来越受欢迎,应用于代码生成、邮件撰写等。根据Markets and Markets Research,生成性AI市场预计在2023至2028年间以35.6%的年复合增长率增长,从113亿美元增至518亿美元,2032年可能达到1918亿美元。生成性AI应用的年价值预计在2.6万亿至4.4万亿美元之间,可能提升人工智能整体影响力40%。Salesforce调查显示,61%的员工已使用或计划使用生成性AI,68%认为其能提升客户服务能力,67%认为能增强其他技术投资的效益。研究分析了四种大型语言模型:GPT-3.5-Turbo、Falcon、Llama 2和PaLM,应用于代码、文本和图像生成等任务。

本文探讨如何利用大型语言模型(LLMs)帮助专业数据分析师自动生成深度学习模型(如LSTM)及其可执行代码,降低学习复杂语法的门槛。LSTM在时间序列异常检测、URL检测和智能合约漏洞检测中表现优异,成为选择的主要原因。研究通过控制敏感性分析,评估LLMs生成的深度学习代码的质量,关注四个标准:清晰性与具体性、目标与意图、上下文信息、格式与风格。实验结果显示,LLMs能够生成与手动编码模型相当的模型,ChatGPT在金融和股票数据预测中表现最佳。LLMs的性能受温度参数影响,复杂提示未必优于简单提示,结果因设置不同而异。

研究问题

大型语言模型(如GPT-3)在文本生成方面表现出色,但提示工程的最佳实践仍在发展中。研究将进行系统的敏感性分析,以识别文本生成中最敏感的提示组件。按照Saltelli等人的工作流程,逐个变化输入因素,保持其他因素不变,以隔离其影响。结果将为提示工程师提供精确调优的指导。实验分为两部分:在Google Colab Pro上使用高RAM GPU运行LLM模型,随后在配备64GB内存的M1 Max Macbook Pro上分析输出。

实验设置

数据集

数据集涵盖2022年1月1日至4月23日的金融时间序列数据,来源于Yahoo Finance。包含多种股票和指数,按市值和行业选择,代表多个行业(科技、电商、汽车)和国家(美国、日本、香港、中国)。主要指数包括S&P 500、道琼斯、纳斯达克、日经225和恒生指数。包含大型科技公司(如苹果、微软)、电商巨头(如亚马逊、阿里巴巴)和汽车制造商(如特斯拉)。目的是测试LLM生成模型在不同数据集上的表现。

LLMs设置

LLM的响应可通过温度控制、top-p参数和最大token大小进行调节。温度接近1时,响应随机性增加;低温度输出更一致但缺乏多样性。top-p值为0.4时,考虑40个最可能的词或短语。max_token_size限制为2048个token,影响模型分析的范围。实验中不同温度设置对模型表现的影响显著。

提示词工程

研究目的:探讨基于深度学习的LLM模型在时间序列预测中的有效性,并评估通过有效的提示工程提升模型表现的可行性。

提示工程的控制标准:

  • 清晰性和具体性(CS):低、中、高三个级别。

  • 目标和意图(OI):低、中、高三个级别。

  • 上下文信息(CI):低、中、高三个级别。

  • 提示的格式和样式(FS):低、中、高三个级别。

每个标准的具体描述:

  • CS:从模糊到明确的任务描述。

  • OI:从不清晰的目标到明确的目标和意图。

  • CI:从缺乏上下文到提供详细背景信息。

  • FS:从提示格式不清晰或不一致到提示语言结构良好,格式适当,术语使用恰当。

评估指标

实验中使用的性能指标是均方根误差(RMSE)。RMSE计算模型预测值与真实值之间的平方差的均值的平方根。RMSE值越低,模型性能越好,预测值与真实值越接近。

实验程序

为评估大型语言模型(LLMs)在生成深度学习模型以分析时间序列数据的表现,设计了一系列根据标准和敏感性水平的提示。这些提示旨在为不同敏感性水平的主流LLMs提供输入。将提示提供给每个LLM,收集其响应,编译并执行生成的代码,最终捕获均方根误差(RMSE)以进行比较。

提示设计的敏感性分析

设计了11个从简单到复杂的敏感性分析提示,基于成对敏感性分析。成对分析是通过系统性比较每个项目与其他项目来评估多个标准的方法。该分析帮助评估特征的质量、重要性或适用性。使用颜色编码(绿色、高敏感性;橙色、中敏感性;红色、低敏感性)来表示敏感性水平。

手工创建和优化模型

实验在Apple M1 MAX上进行,内存64GB,使用GPU。数据集分为80%训练和20%测试。数据预处理使用MinMaxScaler,将特征范围缩放至0到1,并准备成长度为5的序列以预测下一天的数据。模型为手动创建的LSTM架构,使用TensorFlow,包含1个LSTM层,50个单元,激活函数为’relu’。训练100个epoch,批量大小为1,优化器为’adam’,损失函数为’mse’。超参数通过多次实验观察选择,手动创建的预处理和模型构建对LLMs无关。

实验结果

表4展示了基于LLM生成的深度学习模型在时间序列数据分析中的表现,使用RMSE值评估。PaLM模型在BABA股票上RMSE最低为0.0023,Falcon在GSPC股票上为0.0041。GPT 3.5在八个股票上表现最佳,但手动优化模型在所有股票上RMSE最低。表4中,最佳RMSE值用灰色高亮,所有模型中最佳值用深色高亮,NA表示LLM生成的模型无效,可能因幻觉问题导致。各LLM生成模型的平均表现相近,GPT 3.5在提示9和10上表现优于其他模型,除GSPC和BABA外。GPT 3.5在提示8、9、10下生成最佳模型,LLama 2在提示8下表现最佳,PaLM在提示7、8、9下表现较好,Falcon结果混杂。GPT 3.5在不同数据集上表现最佳,提示8、9的清晰性、目标明确性和格式要求高,能生成更准确的模型。手动优化模型的准确性高于LLM生成模型,且仅创建了一个针对所有数据集的优化模型。图1显示了手动LSTM模型在不同数据集上的RMSE值。

手动优化模型在DJI、N225和AMZN数据集上表现优于LLM生成的模型。LLM生成的模型在GSPC、IXIC、HSI、AAPL、MSFT、BABA和TSLA数据集上表现优于手动优化模型。比较结果基于最佳RMSE值,提示的变异性也是重要指标。提示8、9和10在大多数情况下表现最佳,建议高设置清晰度、目标和格式,使用GPT 3.5生成深度学习模型,以实现与手动模型相当的时间序列预测效果。

固定/一致的LLM配置

表4的结果基于表2中LLMs参数的配置和设置,经过实证微调以获得最佳结果。表5使用固定参数(温度=0.1,最大token_size=1024,top_p=0.6)重复实验,减少生成响应的随机性。GPT 3.5在九个股票代码中表现最佳,MSFT的RMSE最低为0.0357。较低的温度值提高了模型的准确性,GPT仍然优于其他LLMs。简单提示(如提示2、3、4)生成的GPT模型表现更佳,保持一致的标准(清晰度、客观性、上下文信息、格式和风格)。在时间序列数据集上观察到类似的结果,整体与表4一致。表4和表5显示,低温度参数下模型表现稍好。Falcon模型在温度0.7时生成的有效模型数量高于0.1,表明高温度增加了探索性。对于GPT 3.5,低温度(0.1)下无效模型数量较少,简单提示产生更连贯的响应。复杂提示在高温度下生成多样化响应,但可能导致不清晰的信息输出。

生成模型的模型体系结构

LSTM模型性能差异与架构(层数、节点数等)密切相关,架构配置包括LSTM层数、单位数、激活函数、批量大小和训练轮数。手动优化模型为1层50个节点,激活函数为“relu”,批量大小为1,训练轮数为100。LLM生成的模型大多为1或2层LSTM,节点数差异显著,PaLM和falcon使用较多节点(128、100、64),而LLama 2和GPT 3.5使用50个节点,后者表现更佳。批量大小方面,LLama 2和GPT 3.5通常为32,而手动模型为1,较小的批量大小有助于更深层次的训练。所有LLM的训练轮数大多为100、50或10,PaLM的模型均为100轮。总结:GPT 3.5和LLama 2生成的模型架构与手动模型相似,PaLM和falcon的架构差异较大。大多数LLM生成的LSTM模型层数为1或2,与手动模型一致。

模型准确性关键参数为节点数,PaLM和Falcon使用128个节点,而GPT 3.5和Llama 2使用50个节点,后者在设置上更优。批量大小也是影响准确性的因素,表现最佳的LLM使用批量大小32,而手动优化模型使用批量大小1,尽管小批量可能导致过拟合。

限制

本文假设普通用户对简单的深度学习模型(如LSTM)更感兴趣,复杂架构的模型难以构建和调优。为避免因模型复杂性引入的偏见,本文保持模型架构简单,以确保结果的公正比较。研究专注于金融数据,避免扩展到其他领域以防文献冗长和混乱。认为普通研究者对深入分析的兴趣有限,因此只关注金融领域数据分析的基本需求。

总结

本文通过控制实验研究不同提示对生成深度学习模型在金融时间序列预测中的影响,首先优化了手动LSTM模型。提示的控制标准包括清晰性、目标意图、上下文信息和格式风格,敏感度分为低、中、高。结果显示,简单提示和复杂提示在生成准确预测模型方面表现相当,且温度参数直接影响模型的准确性。LLM生成模型的RMSE值表现强劲,且在复杂数据集上与手动模型的性能差异显著。不同LLM生成的模型架构差异明显,提示工程仍是深度学习任务的重要因素。研究结果对缺乏编程经验的数据分析师和从业者尤为有用,建议进一步比较LSTM与ARIMA等传统模型。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值