基于预测分析表法的语法分析程序_超详细！一文告诉你如何用微信小程序制作实时分析和智能预测的炒股小程序！（下篇）...-CSDN博客

本文链接：https://blog.csdn.net/weixin_39739404/article/details/111347239

本文详细介绍了如何使用微信小程序制作实时股票预测的小程序，涉及VAR、线性、二次判别分析（QDA）、KNN和LSTM模型的建立与评估。最终，LSTM模型在股票预测中表现出最佳效果，被选为预测模型。此外，还涵盖了新闻热词分析和投资者风险测评，以提供全面的投资参考。

摘要由CSDN通过智能技术生成

6. 智能诊股——股票预测

6.1 股票数据的爬取

我们打算获取从此日起向前的一定天数的特定股票的开盘、收盘、最高、最低和调整后的收盘价等具体的数据，用于后续模型建立中输入的数据，使用如下代码。

import pandas_datareader.data as web
import time
import requests
import bs4 as bs

####################获取股票历史数据（从datalen天之前到现今天,获取的是每天的数据）
##stock_code：股票代码
##datalen：从多少天之前获取数据
def get_stock_history( stock_code,datalen):
    start_date = time.strftime('%Y-%m-%d', time.localtime(time.time() - datalen * 24 * 60 * 60))
    end_date = time.strftime('%Y-%m-%d', time.localtime(time.time()))  ##获取的今日时间
    if stock_code[-2:] != 'ss':
        stock_code = str(stock_code) + '.ss'
    df = web.DataReader(stock_code, data_source='yahoo', start=start_date, end=end_date)
    return df

stock_code='000001'   #股票代码
datalen=365  #近365天的股票数据
data=get_stock_history(stock_code,datalen,content)
print(data)

6.2 预测模型的建立、评估与确定

股票价格的预测受到多重因素的影响。

首先，我们从股票历史数据这一方面出发，由于股票价格与近期时间之间的关系较大，过早的历史数据对其价格波动的影响很小，所以，我们通过对一定期限内该股票价格的分析，选择适合的模型进行训练调优，实现”数据“方面的股票未来价格变动的预测，从而给出用户参考性建议。

需要明确的一点是，传统的时间序列模型，如ARIMA，ARIMA-GARCH等只分析价格自身的变化而不考虑其他影响因素。考虑到股价的多重影响因素，因此我们的思路是在此基础上寻找能够反映多重影响因素的模型。

以下三个模型均为利用过去365天的股票收盘价格数据预测未来60天的情况。

6.2.1 基于VAR的股价预测模型

VAR模型可以看做是集合多元线性回归的优点（可以加入多个因子）以及时间序列模型的优点（可以分析滞后项的影响）的综合模型。该模型不仅可以分析自身滞后项的影响，还可以分析其他相关因素的滞后项对未来值产生的影响。

VAR模型将多个变量包含在一个统一的模型中，可以涵盖更多的信息。核心思想是直接考虑经济变量时间时序之间的关系，通常用来预测相关时间序列系统和研究随机扰动项对变量系统的动态影响。

VAR模型的建立过程与时间序列课程中ARIMA模型的建立过程相似，代码如下：

导入相应的包

#coding:utf-8
import matplotlib.pyplot as plt
import pandas_datareader.data as web
import time
import statsmodels.tsa.stattools as stat
import pandas as pd
import numpy as np

获取股票数据（前面已经介绍）

####################获取股票历史数据（从datalen天之前到现今天,获取的是每天的数据）
def get_stock_history( stock_code,datalen,content):
    start_date = time.strftime('%Y-%m-%d', time.localtime(time.time() - datalen * 24 * 60 * 60))
    end_date = time.strftime('%Y-%m-%d', time.localtime(time.time()))  ##获取的今日时间
    if stock_code[-2:] != 'ss':
        stock_code = str(stock_code) + '.ss'
    df = web.DataReader(stock_code, data_source='yahoo', start=start_date, end=end_date)
    return df

# stock_code='000001'   #股票代码平安银行
# stock_code='600519'   #股票代码贵州茅台
stock_code='600522'   #股票代码中天科技
datalen=365
content='Close'
data=get_stock_history(stock_code,datalen,content)
print(data)

subdata = data.iloc[:,:4]
# print(subdata.shape)

平稳性检验

一般情况下，数据进行一阶差分之后的平稳性更好，所以我们采取一阶差分的方法对数据进行平稳性处理。

#平稳性检验
pvalue = stat.adfuller(subdata.values[:,3], 1)[1]
print("指标 ",data.columns[3]," 单位根检验的p值为：",pvalue)

#一阶差分并进行平稳性检验
subdata_diff1 = subdata.iloc[1:,:].values - subdata.iloc[:-1,:].values
pvalue = stat.adfuller(subdata_diff1[:,3], 1)[1]
print("指标 ",data.columns[3]," 单位根检验的p值为：",pvalue)

确定阶数

采取遍历的方法对1~10的阶数分别进行代入，并选取使得AIC最小的那个值作为模型的阶数。

#  模型阶数从1开始逐一增加
rows, cols = subdata_diff1.shape
aicList = []
lmList = []

for p in range(1,11):
    baseData = None
    for i in range(p, rows):
        tmp_list = list(subdata_diff1[i,:]) + list(subdata_diff1[i-p:i].flatten())
        if baseData is None:
            baseData = [tmp_list]
        else:
            baseData = np.r_[baseData, [tmp_list]]
    X = np.c_[[1] * baseData.shape[0], baseData[:, cols:]]
    Y = baseData[:, 0:cols]
    coefMatrix = np.matmul(np.matmul(np.linalg.inv(np.matmul(X.T, X)), X.T), Y)
    aic = np.log(np.linalg.det(np.cov(Y - np.matmul(X, coefMatrix), rowvar=False))) + 2 * (coefMatrix.shape[0] - 1) ** 2 * p / baseData.shape[0]
    aicList.append(aic)
    lmList.append(coefMatrix)

#对比查看阶数和AIC
ac=pd.DataFrame({
    "P":range(1,11),"AIC":aicList})
print('阶数查看',ac)