【数据挖掘】使用移动平均预测道琼斯、纳斯达克、标准普尔指数——Python中的基本数据操作和可视化

一、介绍

移动平均(Moving Average,MA),⼜称移动平均线,简称均线。作为技术分析中⼀种分析时间序列的常⽤⼯具,常被应⽤于股票价格序列。移动平均可过滤⾼频噪声,反映出中⻓期低频趋势,辅助投资者做出投资判断。

流⾏的移动平均包括简单移动平均、加权移动平均、指数移动平均,更⾼阶的移动平均算法则有分形⾃适应移动平均、赫尔移动平均等。
而本文将使用简单移动平均预测道琼斯、纳斯达克、标准普尔指数

二、下载数据

下载S&P、Dow、Nasdaq数据并将其保存至文件夹内,数据已经打包好了:CSDN下载:琼斯、纳斯达克、标准普尔指数-数据挖掘数据集包
下载后的csv数据如下所示:
在这里插入图片描述

三、获取数据

获取数据我们使用pandas的read_csv函数,如:data = pd.read_csv('S&P.csv',header=0)
pd.read_csv函数用法:pd.read_csv(filepath_or_buffer,header,parse_dates,index_co)l

参数名用法
filepath_or_buffer字符串,或者任何对象的read()方法。这个字符串可以是URL,有效的URL方案包括http、ftp、s3和文件。可以直接写入"文件名.csv"
header将行号用作列名,且是数据的开头

获取数据之后,我们可以打印一下数据:print(data),可以看到已经成功读取到csv数据:
在这里插入图片描述

四、分析数据

在这里插入图片描述

如上图所示,数据格式为csv,其中Date表示开盘的日期,Open表示开盘价,High表示当日最高值,Low表示当日最低值,Close表示收盘价格,Adj Close表示调整后的收盘价格,Volume表示当日成交量。我们需要预测的则是Adj Close这一列
我们可以使用pandas读取csv文件,并打印出Adj Close这一列:

import pandas as pd
data = pd.read_csv('DOW.csv',header=0)
data = data.applymap(str)
print(data['Adj Close'])

结果如下,可以看到在道琼斯数据集中,我们需要预测的Adj Close有798行,type为object,我们要做的就是根据数据,使用移动平均算法,预测后面的指数。
在这里插入图片描述

五、移动平均预测

移动平均值,就是指定时间段,对时间序列数据进行移动计算平均值。移动平均值常常用在计算股票的移动平均线、存货成本等方面。移动平均的本质是⼀种低通滤波。它的⽬的是过滤掉时间序列中的⾼频扰动,保留有⽤的低频趋势。计算公式 S M A t = P 1 + P 2 + … + P n n S M A_{t}=\frac{P_{1}+P_{2}+\ldots+P_{n}}{n} SMAt=nP1+P2++Pn
比如若依次得到测定值 x 1 、 x 2 、 x 3 、 x 4 、 x 5 、 x 6 、 x 7 . . . x_1、x_2、x_3、x_4、x_5、x_6、x_7... x1x2x3x4x5x6x7...,按顺序取一定个数所做的全部算术平均值就是移动平均值,如 y 1 = ( x 1 + x 2 + x 3 ) / 3 、 y 2 = ( x 2 + x 3 + x 4 ) / 3.... y_1=(x_1+x_2+x_3)/3、y_2=(x_2+x_3+x_4)/3.... y1=(x1+x2+x3)/3y2=(x2+x3+x4)/3....

panda提供了rolling函数可以用来计算移动平均,使用简单,速度较快:
DataFrame.rolling(window, min_periods=None, freq=None, center=False, win_type=None, on=None, axis=0, closed=None)

参数用法
window表示时间窗的大小,注意有两种形式(int or offset)。如果使用int,则数值表示计算统计量的观测值的数量即向前几个数据。如果是offset类型,表示时间窗的大小。
min_periods最少需要有值的观测点的数量,对于int类型,默认与window相等。对于offset类型,默认为1。
freq不用管,从0.18版本中已经被舍弃。
win_type窗口类型,不用管,默认为None一般不特殊指定
on对于DataFrame如果不使用index(索引)作为rolling的列,那么用on来指定使用哪列。
closed定义区间的开闭,不用管,新版本中已经被舍弃
axis方向(轴),一般都是0。
center是否使用window的中间值作为label,默认为false。只能在window是int时使用。

那么我们使用的简单移动平均直接使用:data['ma5'] = data['Adj Close'].rolling(5).mean(),其表示窗口大小为5的移动平均。计算后,使用matplotlib.pyplot进行画图,横轴为时间,竖轴为预测价格,将其在pyplot 图中打印:

import matplotlib.pyplot as plt
fig = plt.figure(figsize=(16,9))
ax1 = fig.add_subplot(111, ylabel='Price')
data.ma5.plot(ax=ax1, color='plum', lw=2., legend=True)

效果如下:
在这里插入图片描述
我们以同样方法画出多个均线并且和原数据real对比:

data['real'] = data['Adj Close'].rolling(1).mean()
data['ma5'] = data['Adj Close'].rolling(5).mean()
data['ma10'] = data['Adj Close'].rolling(10).mean()
data['ma20'] = data['Adj Close'].rolling(20).mean()
data['ma30'] = data['Adj Close'].rolling(30).mean()
data['ma50'] = data['Adj Close'].rolling(50).mean()
data['ma100'] = data['Adj Close'].rolling(100).mean()
data['ma200'] = data['Adj Close'].rolling(200).mean()
data['ma250'] = data['Adj Close'].rolling(250).mean()

data.tail()


fig = plt.figure(figsize=(16,9))
ax1 = fig.add_subplot(111, ylabel='Price')
data.real.plot(ax=ax1, color='black', lw=2., legend=True)
data.ma5.plot(ax=ax1, color='plum', lw=2., legend=True)
data.ma10.plot(ax=ax1, color='grey', lw=2., legend=True)
data.ma20.plot(ax=ax1, color='salmon', lw=2., legend=True)
data.ma30.plot(ax=ax1, color='goldenrod', lw=2., legend=True)
data.ma50.plot(ax=ax1, color='hotpink', lw=2., legend=True)
data.ma100.plot(ax=ax1, color='khaki', lw=2., legend=True)
data.ma200.plot(ax=ax1, color='bisque', lw=2., legend=True)
data.ma250.plot(ax=ax1, color='skyblue', lw=2., legend=True)

plt.grid()
plt.show()

在这里插入图片描述

可以发现,移动平均存在一定的滞后性,移动平均以滞后性的代价换来了平滑性,滞后性说明由简单移动平均计算得到的低频趋势对近期的最新数据不够敏感。没有未来数据便是滞后的根本原因。当股价不是随着趋势的变化方向,发生突发的方向趋势,移动平均线行动往往过于迟缓,改变方向速度落后于大趋势。这是一个极大弱点
在股价原有趋势发生反转时,由于MA的追踪趋势的特性,MA的行动往往过于迟缓,掉头速度落后于大趋势。这是MA的一个极大的弱点。等MA发出反转信号时,股价调头的深度已经很大了。

附录DOW在不同MA值下的滑动平均值:
在这里插入图片描述
Nasdaq在不同MA值下的滑动平均值:
在这里插入图片描述
S&P在不同MA值下的滑动平均值:
在这里插入图片描述

六、封装函数

我们将其进行封装如下,代码整体如下:

import matplotlib.pyplot as plt
import pandas as pd
import os
def cal_ma(name,data, day):
    data = pd.read_csv(data, header=0)
    data = data.applymap(str)
    # print(data['Date'])
    # print(data['Adj Close'])

    day = int(day)
    data['ma'+str(day)] = data['Adj Close'].rolling(day).mean()

    data.tail()

    fig = plt.figure(figsize=(16, 9))
    ax1 = fig.add_subplot(111, ylabel='Price')
    data['ma'+str(day)].plot(ax=ax1, color='red', lw=2., legend=True)

    plt.rcParams['font.sans-serif'] = ['FangSong']
    plt.title("MA"+str(day)+" about "+name+" data", fontsize=10, loc='center', color='black')
    plt.grid()
    plt.show()


if __name__ == "__main__":
    dataname = input("请输入数据名:")
    day = input("请输入MA的天数:")
    cal_ma(dataname,dataname+'.csv', day)

完整项目已经打包,免费下载:数据挖掘项目——移动平均预测道琼斯、纳斯达克、标准普尔指数

最后

💖 个人简介:人工智能领域研究生,目前主攻文本生成图像(text to image)方向

📝 关注我:中杯可乐多加冰

🔥 限时免费订阅:文本生成图像T2I专栏

🎉 支持我:点赞👍+收藏⭐️+留言📝

如果这篇文章帮助到你很多,希望能点击下方打赏我一杯可乐!多加冰哦

  • 60
    点赞
  • 83
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 101
    评论
要下载纳斯达克指数的历史数据,我们可以使用Python编程语言来实现。首先,我们需要安装Python的相关库以便进行数据的获取和处理。 1. 首先,我们需要安装Python数据分析库pandas。打开命令行终端,运行以下命令来安装pandas:`pip install pandas`。 2. 安装完pandas后,我们还需要安装一个用于数据下载的包,叫做yfinance。同样在命令行终端,运行以下命令来安装yfinance:`pip install yfinance`。 3. 安装完必要的库后,我们可以开始编写Python代码来下载纳斯达克指数的历史数据。首先,导入需要的库,包括pandas和yfinance:`import pandas as pd`和`import yfinance as yf`。 4. 接下来,使用yfinance库的`download`函数来下载纳斯达克指数的历史数据。代码示例如下: ``` # 设置下载的起始和结束日期 start_date = '2000-01-01' end_date = '2022-12-31' # 使用yfinance下载纳斯达克指数的历史数据 nasdaq_data = yf.download('^IXIC', start=start_date, end=end_date) # 打印下载的数据 print(nasdaq_data) ``` 上述代码指定了下载数据的起始日期和结束日期,并使用yf.download函数来获取纳斯达克指数的历史数据。'^IXIC'是纳斯达克指数的代码。 5. 运行以上代码后,下载的数据将被存储在一个pandas的Dataframe对象,你可以使用pandas库的相关函数来处理和分析这些数据。 以上就是使用Python下载纳斯达克指数历史数据的方法。希望可以对你有所帮助!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 101
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

中杯可乐多加冰

请我喝杯可乐吧,我会多加冰!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值