股票市场交易因其盈利潜力而备受关注,成功交易结合直觉与算法方法。机器学习模型在NIFTY 50股市预测中受到广泛关注,但短期内难以实现稳定收益。
本文探讨了使用排列决策树(PDT)和策略性追踪在印度股市预测股票市场走势及执行盈利交易的应用。研究基于NIFTY 50指数前50只股票的5分钟高频数据,实施买低卖高的短期交易策略。
结果显示,基于PDT的交易机器人在12天测试期内实现了1.3468%的利润,超越了LSTM(0.1238%)和RNN(0.3096%)模型。所有交易机器人均优于买入持有策略(-2.2508%)。
摘要
本文探讨了使用排列决策树(PDT)和策略性追踪在印度股市预测股票市场走势及执行盈利交易的应用。研究基于NIFTY 50指数前50只股票的5分钟高频数据,实施买低卖高的短期交易策略。由于印度的监管限制,策略中不考虑卖空。模型结合多种技术指标,使用超参数如追踪止损值和支撑阈值来有效管理风险。结果显示,基于PDT的交易机器人在12天测试期内实现了1.3468%的利润,超越了LSTM(0.1238%)和RNN(0.3096%)模型。所有交易机器人均优于买入持有策略(-2.2508%)。
简介
股票市场交易因其盈利潜力而备受关注,成功交易结合直觉与算法方法。研究发现:
-
LSTM模型在NIFTY 50股票价格预测中表现最佳,RMSE为0.002,R²为0.537。
-
混合方法如PCA与ANN结合,取得了0.9984的准确率和F1-score。
-
MLP模型在预测NIFTY 50的OHLC数据中,平均准确率为99.21%,RMSE为0.0079。
-
ANFIS在建模风险收益模式方面表现出色。
-
线性回归和ANN在多种监督学习模型中表现良好,决策树则存在过拟合问题。
-
EGARCH模型在NIFTY 50波动性预测中表现最佳,MAPE为16.99%。
-
ERBNN模型在NIFTY 50收盘价预测中准确率最高,达到99.31%。
-
随机森林在NIFTY 50价格预测中优于SVM,RMSE为9.75,R²为99.2%。
-
LSTM模型在多个NIFTY 50股票价格预测中表现突出,最高准确率为83.88%。
-
BE-LSTM模型在NIFTY 50价格预测中表现优于标准LSTM,准确率为95%。
机器学习模型在NIFTY 50股市预测中受到广泛关注,但短期内难以实现稳定收益。深度学习模型(如LSTM和RNN)在捕捉序列依赖性方面表现良好,但面临以下挑战:
-
过拟合:高复杂度模型需要大量数据,日内交易数据噪声大,难以有效训练。
-
黑箱可解释性:高性能模型缺乏透明度,交易者难以信任或调整输出。
-
短期收益不一致:市场波动导致模型在5分钟时间框架内表现不可预测,某些时期的收益常被其他时期的损失抵消。
本文聚焦于使用NIFTY 50指数中50只股票的5分钟蜡烛图的高频数据。
问题建模
算法交易的核心挑战在于构建一个可靠、高性能且可解释的系统,尤其是在高频数据下。传统方法常常无法超越简单的买入持有策略。需要开发一个能够利用短期(5分钟)价格波动的稳健交易系统。
本研究提出使用Harikrishnan等人的排列决策树(PDT)算法。PDT基于压缩努力(ETC)指标,假设能有效建模高频股票数据的模式。相较于黑箱深度学习模型,PDT有助于降低过拟合风险并提高可解释性,从而改善印度股市短期交易的风险调整收益。
数据集描述与特征工程
研究使用了NIFTY 50成分股的5分钟K线数据,数据来源于Yahoo Finance。数据覆盖广泛,确保了不同市场条件下的全面性。
数据概览
每只股票有4,375个数据点,总计2,18,750个数据点。考虑了原始特征及其衍生特征。
原始特征:
-
时间:数据点的时间戳。
-
开盘价:5分钟区间内的开盘价格。
-
最高价:5分钟区间内的最高价格。
-
最低价:5分钟区间内的最低价格。
-
收盘价:5分钟区间内的收盘价格。
派生特征:
-
Swing High:最近的高点价格。
-
Swing Low:最近的低点价格。
-
当前收盘价与Swing high的距离:当前价与高点的差值。
-
当前收盘价与Swing low的距离:当前价与低点的差值。
-
订单块指示器:指示机构投资者显著买卖订单的价格区间,通常作为强支撑或阻力位。
-
20期移动平均(MA_20):过去20个时间段的收盘价简单移动平均。
-
50期移动平均(MA_50):过去50个时间段的收盘价简单移动平均。
-
Diff:MA_20与MA_50的简单差值。
-
未来收盘价:当前行的未来某个时间步的收盘价。
-
相对强弱指数(RSI):衡量价格变动速度和幅度的动量指标,范围0-100。
数据来源:从Yahoo Finance获取的Reliance Industries的原始数据,经过预处理和特征工程生成衍生特征。
预处理
-
特征筛选:仅保留收盘价用于分析。
-
处理缺失数据:数据集中无缺失数据,确保分析一致性。
-
时间框架一致性:所有股票数据对齐至5分钟间隔,修正时间戳不一致。
训练-测试集划分
每只股票的数据分为训练集和测试集。
-
训练数据:每只股票3,500个数据点(前80%),总计175,000个数据点。
-
测试数据:每只股票875个数据点(后20%),总计43,750个数据点。
方法
排列决策树(PDT)
排列决策树(Permutation Decision Tree,PDT)是一种基于决策树的算法,使用“压缩努力”(ETC)度量目标标签的均匀性。PDT 通过 ETC 找到能够使目标标签(0 和 1)在每个节点中更“可压缩”的分裂点。这种方法揭示了传统分裂标准可能无法检测到的基于阈值的模式。
PDT关键概念
压缩效果(ETC):衡量将标签序列压缩为单一重复符号所需的配对替换迭代次数,迭代次数越少,序列越均匀。ETC不假设独立同分布,适用于具有时间依赖的数据集。
分裂标准(ETC增益):选择特征阈值时,计算从父节点到子节点的ETC下降量,下降越大,分裂效果越好。
PDT构建:PDT通过寻找最佳阈值和特征,递归构建,直到标签均匀或达到最大深度为止。
基于PDT的股票分类框架
使用PDT分类短期股票走势(上涨或下跌)。
-
数据收集:获取历史的5分钟K线数据,包括{开盘价、最高价、最低价、收盘价、成交量}。
-
构建PDT模型:将未来收盘价高于当前收盘价的数据标记为1,反之为0。计算整个标签集的ETC(Entropy-based Tree Classification)。针对每个特征搜索阈值,寻找最佳ETC增益分割。递归生长左右子节点,直到达到纯度或最大深度。
-
预测:预测新特征向量时,从根节点遍历PDT,比较特征值与阈值,直到到达叶节点输出预测结果。
预测结果为1表示预期价格上涨,为0表示预期价格不变或下跌。
评估指标
-
增长率(%)
-
复合年增长率(CAGR)
-
最大回撤(%)
实验设置
仿真目标
模型预测用于识别盈利的买卖机会。
-
风险管理采用跟踪止损策略,止损价 S_t = P_n - 8,P_h 为最高价,δ 为固定阈值。
-
止损价随资产价格上升而上调,价格下跌时保持不变。
-
评估策略表现的指标包括总回报、交易准确率和最大回撤。
交易规则
-
买入信号:模型预测股价上涨且无持仓时触发。
-
卖出信号:模型预测股价下跌或触发止损条件时触发。
-
无操作:未触发买入或卖出信号时保持当前持仓。
仿真的关键组件
-
初始化投资组合:初始余额(如INR 10,000),无持仓。
-
迭代交易:每个时间间隔评估模型预测,执行买入、卖出或持有决策。
-
风险管理:使用追踪止损机制限制损失并锁定利润。
-
更新投资组合价值:每次交易后更新余额和持仓。
结果数据结构
结果是模拟算法的关键输入,包含以下列:
-
Datetime:股票价格数据的时间戳
-
Actual:实际标签(价格上涨为1,下跌为0)
-
Predicted:模型预测标签(上涨为1,下跌为0)
-
Close:指定时间戳的股票收盘价
结果和讨论
LSTM和RNN表现
评估LSTM和RNN模型作为基线比较,突出PDT方法的不同。
超参数设置:50个单元、10个密集层单元、ReLU激活(密集层)、Sigmoid激活(输出层)、二元交叉熵损失、Adam优化器、50个训练周期。
效果分析:
-
LSTM和RNN在某些时间窗口内的回报优于买入持有策略。
-
存在中等回撤,风险控制有限。
-
对数据高度依赖,面对市场突变时表现不佳。
排列决策树(PDT)表现
应用排列决策树(PDT)模型进行股票价格预测,时间范围为60个交易日(80%训练,20%测试)。短期时间框架捕捉短期趋势,展示了PDT快速适应市场波动的能力。
关键发现:
-
PDT策略:60天平均回报1.3468%,预计CAGR为50.21%;表现优于买入持有策略。
-
买入持有策略:60天平均回报-2.2508%,预计CAGR为-49.964%。
表现分析:PDT策略通过使用跟踪止损有效控制损失,增强风险管理。
数据有限的局限性:由于数据仅限于60天,结果反映短期表现,长期有效性需进一步研究。
组合绩效的视觉表现:图6显示PDT策略在投资组合价值增长上持续优于买入持有,且回撤较少。
回撤分析(PDT vs.买入并持有):图7展示PDT策略的回撤曲线,表明其风险管理能力强。
与基线对比
将PDT与Buy-and-Hold、LSTM和RNN进行基准比较。考虑印度的定期存款(FD)作为保守低风险的替代方案,利率在2.5%至9%之间。
讨论
PDT在收益和回撤方面优于LSTM/RNN,ETC指标能更清晰识别股票波动阈值,LSTM/RNN需更大数据集捕捉时间模式。
使用的追踪止损策略使PDT能锁定收益并限制下行,而LSTM/RNN在同样模拟中控制回撤效果较差。
被动的买入持有策略在60天波动市场中表现不佳,负增长为-2.25%,且回撤较大。
固定存款保证2.5%-9%的温和正收益,但无法达到PDT约50%的短期复合年增长率,风险较低。
总结:在60天的短期研究中,PDT优于深度学习基线和买入持有策略,但需更广泛的市场周期测试以确认长期稳健性。
局限性与未来研究方向
排列决策树(PDT)在股票价格预测中表现良好,但存在一些局限性和优势。PDT对输入特征质量依赖较大,噪声或不完整数据会显著降低性能。PDT无法增量更新,需重建整个树,限制了在动态市场中的适应性。未来研究应关注动态更新PDT、考虑交易成本和滑点、以及更好地建模序列依赖性。
总结
在60天的研究中,排列决策树(PDT)表现优于LSTM和RNN模型,显示出更高的收益和更有效的Effort To Compress(ETC)指标。LSTM和RNN需要更大的数据集才能有效捕捉短期预测的时间模式。PDT的止损机制有助于锁定收益并降低风险。被动买入持有策略在测试期间表现不佳,负增长为-2.25%。固定存款提供2.5%至9%的低风险回报,但无法与PDT的约50%年复合增长率相匹配。尽管PDT在短期内表现优异,但建议进行更广泛的市场周期测试以验证其长期稳健性和普适性。
一、大模型风口已至:月薪30K+的AI岗正在批量诞生
2025年大模型应用呈现爆发式增长,根据工信部最新数据:
国内大模型相关岗位缺口达47万
初级工程师平均薪资28K(数据来源:BOSS直聘报告)
70%企业存在"能用模型不会调优"的痛点
真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!
二、如何学习大模型 AI ?
🔥AI取代的不是人类,而是不会用AI的人!麦肯锡最新报告显示:掌握AI工具的从业者生产效率提升47%,薪资溢价达34%!🚀
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工
📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
* 大模型 AI 能干什么?
* 大模型是怎样获得「智能」的?
* 用好 AI 的核心心法
* 大模型应用业务架构
* 大模型应用技术架构
* 代码示例:向 GPT-3.5 灌入新知识
* 提示工程的意义和核心思想
* Prompt 典型构成
* 指令调优方法论
* 思维链和思维树
* Prompt 攻击和防范
* …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
* 为什么要做 RAG
* 搭建一个简单的 ChatPDF
* 检索的基础概念
* 什么是向量表示(Embeddings)
* 向量数据库与向量检索
* 基于向量检索的 RAG
* 搭建 RAG 系统的扩展知识
* 混合检索与 RAG-Fusion 简介
* 向量模型本地部署
* …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
* 为什么要做 RAG
* 什么是模型
* 什么是模型训练
* 求解器 & 损失函数简介
* 小实验2:手写一个简单的神经网络并训练它
* 什么是训练/预训练/微调/轻量化微调
* Transformer结构简介
* 轻量化微调
* 实验数据集的构建
* …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
* 硬件选型
* 带你了解全球大模型
* 使用国产大模型服务
* 搭建 OpenAI 代理
* 热身:基于阿里云 PAI 部署 Stable Diffusion
* 在本地计算机运行大模型
* 大模型的私有化部署
* 基于 vLLM 部署大模型
* 案例:如何优雅地在阿里云私有部署开源大模型
* 部署一套开源 LLM 项目
* 内容安全
* 互联网信息服务算法备案
* …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】