【量化交易笔记】7.基于随机森林预测股票价格

前言

机器学习在量化交易主要有两方面的应用,第一就是用时间序列的日频数据来预测未来的股价,第二 用截面数据来预测收益,现在量化基因的因子都基于这个模型。
接下来,我分别来说明,机器学习分成预测结果分成分类和回归。本章,就以随机森林来做未来某天的股价,是一种典型的回归分析方法,如果预测股价的涨跌就是分类问题。在这里有很多坑,我帮小伙伴一一填平。

获取数据

这部分内容,在之前的章节有详细说明,现以sh.60000为例,从2019年1月1日 到至今天(2023-5-31)。

# 加载相应的库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
plt.rcParams['font.family'] = ['sans-serif']
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus']=False
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import make_scorer,mean_squared_error,mean_absolute_error
# 加载数据
df=pd.read_csv("data/sh.600000.csv",parse_dates=["date"],index_col=[0])
df.head()
datecodeopenhighlowclosepreclosevolumeamountadjustflagturntradestatuspctChgisST
2019-01-02sh.6000008.0793118.1207857.9465918.0461318.12908023762822229625669.020.0845541-1.0204120
2019-01-03sh.6000008.0461318.1456708.0129518.1373758.04613118654262181975985.020.06637611.1340270
2019-01-04sh.6000008.0710168.2949808.0461318.2618008.13737527172844268964563.020.09668811.5290480
2019-01-07sh.6000008.3696358.3696358.2286208.2783908.26180023597376235440197.020.08396510.2007980
2019-01-08sh.6000008.3198658.3198658.2203258.2618008.27839015104933150501650.020.0537471-0.2003960

分离数据

由于是时间序列,特征选 'open','high','low','close','volume','turn',我们目标值(标签)需要进行一处理,我们就选用30天后的收盘价。利用shitt函数,即data.close.shift(-30)

cols=['open','high','low','close','volume','turn']
data=df[cols]
data['target']=data.close.shift(-30)

将数据集拆分为训练集、验证集和测试集。由于这个数据集是时间序列,决不能不能用train_test_split 进行分拆数据。

train=data[data.index<='2022-12-31']
vali=data[data.index>'2022-12-31'][:-30]
test=data[-30:]

建模

X_train,X_valid,y_train,y_valid=train.iloc[:,:-1],valid.iloc[:,:-1],train.target,valid.target
rfr=RandomForestRegressor()
rfr.fit(X_train,y_train)
y_pred = rfr.predict(X_train)
y_valpred=rfr.predict(X_valid)

评估

print('MSE:',mean_squared_error(y_train,y_pred),mean_squared_error(y_valid,y_valpred))
print('MAE:',mean_absolute_error(y_train,y_pred),mean_absolute_error(y_valid,y_valpred))

MSE: 0.024523304572707856 0.148004080839963
MAE: 0.11476424162232533 0.31643676975294

从MSE和 MAE来看,值并不大。但从最后一天的收盘价为7.39来看,0.316 这个偏差也算够大的了。

作图

plt.figure(figsize=(10, 8))
plt.title("股票收盘价格")
plt.xticks(y_valid.index)
plt.plot(y_valid.values, label="真实")
plt.plot(y_valpred, label="预测")
plt.legend()
plt.show()

在这里插入图片描述

预测

y_pred=rfr.predict(test.iloc[:,:-1])
y_pred

array([7.25712055, 7.40309288, 7.40801386, 7.43678256, 7.48561795,
7.45129724, 7.35071418, 7.41735554, 7.40655025, 7.5429179 ,
7.44490355, 7.45728217, 7.74914538, 7.54671586, 7.50899764,
7.4850967 , 7.42395024, 7.55281253, 7.48490723, 7.46983359,
7.47770723, 7.52752326, 7.39138246, 7.39152939, 7.44892407,
6.8768 , 7.23216313, 7.45918674, 7.47948684, 7.21223155])
这里的数据即预测未来30天的值。

小结

以上是用随机森林作的一个预测方法,仅此而以。上面的数据是用当天的6个特征值预测未来30天的结果,可想而知。下面在此基础上我们做如下修改,采用前面30天的部分数据来预测第二天的收盘价。

数据处理

原始数据还是与上面一样,在数据分离做进一步处理。
为了方便说明问题,简化部分数据处理,如想更加详细的说明,后继将有 LSTM 预测股票的价格的文章。
原来的数据只有6列特征,在此基本上增加29列之前每天的收盘价数据一起作为特征。

cols=['open','high','low','close','volume','turn']
data=df[cols]
# 添加前29天的收盘价数据
for i in range(1,30):
    data['R_%d'%i]=df.close.shift(i)
#第二收盘价作为目标
data['target']=data.close.shift(-1) 
#删除空缺值
data=data.dropna()

数据分离

train=data[data.index<='2022-12-31']
valid=data[data.index>'2022-12-31'][:-30]
test=data[-30:]
X_train,X_valid,y_train,y_valid=train.iloc[:,:-1],valid.iloc[:,:-1],train.target,valid.target

建模和评估

rfr=RandomForestRegressor()
rfr.fit(X_train,y_train)
y_pred = rfr.predict(X_train)
y_valpred=rfr.predict(X_valid)
print('MSE:',mean_squared_error(y_train,y_pred),mean_squared_error(y_valid,y_valpred))
print('MAE:',mean_absolute_error(y_train,y_pred),mean_absolute_error(y_valid,y_valpred))

MSE: 0.0018605951383111714 0.0029620773221556763
MAE: 0.0297794545549311 0.04252798919403008
MSE和MAE 已经很小了,很接近真实值

plt.figure(figsize=(10, 8))
plt.title("股票收盘价格")
plt.plot(y_valid.values, label="真实")
plt.plot(y_valpred, label="预测")
plt.legend()
plt.show()


从上图来看,预测值与真实值很接近

预测

y_pred=rfr.predict(test.iloc[:,:-1])
y_pred

array([7.2483 , 7.33919421, 7.50750781, 7.55087572, 7.58982307,
7.6044283 , 7.56227032, 7.57089137, 7.55753348, 7.5588598 ,
7.58131242, 7.57973364, 7.62280714, 7.812186 , 7.96168067,
7.62943871, 7.59097557, 7.57193348, 7.58140716, 7.58822821,
7.56501769, 7.58472294, 7.54284928, 7.52143876, 7.47868092,
7.38327099, 7.28360451, 7.28648865, 7.3997869 , 7.37405036])
er)

  如果不仔细看,小伙伴一定会有疑问,怎么会有真实值呢,其实,最先的数据是用当天的数据预测未来30天的值,而改进后的方案为前面30天的数据,预测第二天的值。

总结

这里只是预测的方法,想应用到真实的预测,以此来作股票买卖,我在这里说,别,千万别,…。
作为随机森林预测数据的一种方法,后继我将用 LSTM 和 CNN 以及 GAN 的深度学习方法来作进一步的使用说明。

在此警告:文章中的所有内容,不能给你构成投资的理由。

  • 6
    点赞
  • 67
    收藏
    觉得还不错? 一键收藏
  • 17
    评论
随机森林是一种常用的机器学习算法,可以用于预测股价的涨跌。它是由多个决策树组成的集成模型,每个决策树都是独立训练的。下面是使用随机森林预测股价涨跌的步骤: 1. 数据准备:收集股票的历史数据,包括股价、成交量、技术指标等。将数据分为训练集和测试集。 2. 特征工程:根据股票数据,提取有用的特征。例如,可以计算移动平均线、相对强弱指标(RSI)等。 3. 数据预处理:对特征进行标准化或归一化处理,以便于模型训练。 4. 模型训练:使用训练集训练随机森林模型。随机森林会随机选择特征和样本进行训练,以降低过拟合的风险。 5. 模型评估:使用测试集评估模型的性能。可以使用准确率、精确率、召回率等指标来评估模型的预测效果。 6. 预测股价涨跌:使用训练好的随机森林模型对新的股票数据进行预测。根据模型的输出,可以判断股价是上涨还是下跌。 下面是一个使用随机森林预测股价涨跌的示例代码: ```python import pandas as pd from sklearn.ensemble import RandomForestClassifier from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score # 1. 数据准备 data = pd.read_csv('stock_data.csv') X = data[['feature1', 'feature2', 'feature3']] # 特征列 y = data['label'] # 标签列 # 2. 数据预处理 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 3. 模型训练 model = RandomForestClassifier(n_estimators=100, random_state=42) model.fit(X_train, y_train) # 4. 模型评估 y_pred = model.predict(X_test) accuracy = accuracy_score(y_test, y_pred) print("模型准确率:", accuracy) # 5. 预测股价涨跌 new_data = pd.read_csv('new_stock_data.csv') new_X = new_data[['feature1', 'feature2', 'feature3']] prediction = model.predict(new_X) print("预测结果:", prediction) ``` 请注意,以上代码仅为示例,实际应用中需要根据具体情况进行调整和优化。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 17
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值