6. 智能诊股——股票预测
6.1 股票数据的爬取
我们打算获取从此日起向前的一定天数的特定股票的开盘、收盘、最高、最低和调整后的收盘价等具体的数据,用于后续模型建立中输入的数据,使用如下代码。
import pandas_datareader.data as web
import time
import requests
import bs4 as bs
####################获取股票历史数据(从datalen天之前到现今天,获取的是每天的数据)
##stock_code:股票代码
##datalen:从多少天之前获取数据
def get_stock_history( stock_code,datalen):
start_date = time.strftime('%Y-%m-%d', time.localtime(time.time() - datalen * 24 * 60 * 60))
end_date = time.strftime('%Y-%m-%d', time.localtime(time.time())) ##获取的今日时间
if stock_code[-2:] != 'ss':
stock_code = str(stock_code) + '.ss'
df = web.DataReader(stock_code, data_source='yahoo', start=start_date, end=end_date)
return df
stock_code='000001' #股票代码
datalen=365 #近365天的股票数据
data=get_stock_history(stock_code,datalen,content)
print(data)
6.2 预测模型的建立、评估与确定
股票价格的预测受到多重因素的影响。
首先,我们从股票历史数据这一方面出发,由于股票价格与近期时间之间的关系较大,过早的历史数据对其价格波动的影响很小,所以,我们通过对一定期限内该股票价格的分析,选择适合的模型进行训练调优,实现”数据“方面的股票未来价格变动的预测,从而给出用户参考性建议。
需要明确的一点是,传统的时间序列模型,如ARIMA,ARIMA-GARCH等只分析价格自身的变化而不考虑其他影响因素。考虑到股价的多重影响因素,因此我们的思路是在此基础上寻找能够反映多重影响因素的模型。
以下三个模型均为利用过去365天的股票收盘价格数据预测未来60天的情况。
6.2.1 基于VAR的股价预测模型
VAR模型可以看做是集合多元线性回归的优点(可以加入多个因子)以及时间序列模型的优点(可以分析滞后项的影响)的综合模型。该模型不仅可以分析自身滞后项的影响,还可以分析其他相关因素的滞后项对未来值产生的影响。
VAR模型将多个变量包含在一个统一的模型中,可以涵盖更多的信息。核心思想是直接考虑经济变量时间时序之间的关系,通常用来预测相关时间序列系统和研究随机扰动项对变量系统的动态影响。
VAR模型的建立过程与时间序列课程中ARIMA模型的建立过程相似,代码如下:
导入相应的包
#coding:utf-8
import matplotlib.pyplot as plt
import pandas_datareader.data as web
import time
import statsmodels.tsa.stattools as stat
import pandas as pd
import numpy as np
获取股票数据(前面已经介绍)
####################获取股票历史数据(从datalen天之前到现今天,获取的是每天的数据)
def get_stock_history( stock_code,datalen,content):
start_date = time.strftime('%Y-%m-%d', time.localtime(time.time() - datalen * 24 * 60 * 60))
end_date = time.strftime('%Y-%m-%d', time.localtime(time.time())) ##获取的今日时间
if stock_code[-2:] != 'ss':
stock_code = str(stock_code) + '.ss'
df = web.DataReader(stock_code, data_source='yahoo', start=start_date, end=end_date)
return df
# stock_code='000001' #股票代码平安银行
# stock_code='600519' #股票代码贵州茅台
stock_code='600522' #股票代码中天科技
datalen=365
content='Close'
data=get_stock_history(stock_code,datalen,content)
print(data)
subdata = data.iloc[:,:4]
# print(subdata.shape)
平稳性检验
一般情况下,数据进行一阶差分之后的平稳性更好,所以我们采取一阶差分的方法对数据进行平稳性处理。
#平稳性检验
pvalue = stat.adfuller(subdata.values[:,3], 1)[1]
print("指标 ",data.columns[3]," 单位根检验的p值为:",pvalue)
#一阶差分并进行平稳性检验
subdata_diff1 = subdata.iloc[1:,:].values - subdata.iloc[:-1,:].values
pvalue = stat.adfuller(subdata_diff1[:,3], 1)[1]
print("指标 ",data.columns[3]," 单位根检验的p值为:",pvalue)
确定阶数
采取遍历的方法对1~10的阶数分别进行代入,并选取使得AIC最小的那个值作为模型的阶数。
# 模型阶数从1开始逐一增加
rows, cols = subdata_diff1.shape
aicList = []
lmList = []
for p in range(1,11):
baseData = None
for i in range(p, rows):
tmp_list = list(subdata_diff1[i,:]) + list(subdata_diff1[i-p:i].flatten())
if baseData is None:
baseData = [tmp_list]
else:
baseData = np.r_[baseData, [tmp_list]]
X = np.c_[[1] * baseData.shape[0], baseData[:, cols:]]
Y = baseData[:, 0:cols]
coefMatrix = np.matmul(np.matmul(np.linalg.inv(np.matmul(X.T, X)), X.T), Y)
aic = np.log(np.linalg.det(np.cov(Y - np.matmul(X, coefMatrix), rowvar=False))) + 2 * (coefMatrix.shape[0] - 1) ** 2 * p / baseData.shape[0]
aicList.append(aic)
lmList.append(coefMatrix)
#对比查看阶数和AIC
ac=pd.DataFrame({
"P":range(1,11),"AIC":aicList})
print('阶数查看',ac)
模型预测和检验
确定阶数之后,使用该模型预测未来60天的股价情况,并与实际值进行对比,通过画图的方法可以直观的看出差距。