每个数据集都有自己的特征,我们使用它们的特征作为特征来深入了解数据。在本文中,我们将讨论一种重要的数据集,即时间序列数据。
什么是时间序列数据
时间序列数据是按连续时间顺序列出的一系列数据点,或者我们可以说时间序列数据是时间上连续等间隔点的序列。时间序列分析包括分析时间序列数据的方法,以提取有意义的见解和数据的其他有价值的特征。
时间序列数据是按连续时间顺序列出的一系列数据点,或者我们可以说时间序列数据是时间上连续等间隔点的序列。时间序列分析包括分析时间序列数据的方法,以提取有意义的见解和数据的其他有价值的特征。
使用Python实现时间序列数据可视化
我们将使用Python库来可视化数据。数据集的链接可以在这里找到。
https://github.com/Neelu-Tiwari/dataset/blob/main/stock_data.csv
我们将像在任何时间序列数据项目中一样一步一步地执行可视化。
导入库
我们将在一个地方导入本文中使用的所有库,这样就不必每次使用时都导入,这将保存我们的时间和精力。
- Numpy -一个用于数值数学计算和处理多维ndarray的Python库,它也有一个非常大的数学函数集合来操作这个数组。
- Pandas -一个构建在NumPy之上的Python库,用于有效的矩阵乘法和矩阵操作,它也用于数据清理,数据合并,数据整形和数据聚合。
- Matplotlib -它用于绘制2D和3D可视化图,它还支持各种输出格式,包括数据图形。
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
加载数据集
为了将数据集加载到一个框架中,我们将使用pandas read_csv()函数。我们将使用head()函数打印数据集的前五行。在这里,我们将在read_csv函数中使用’parse_dates’参数将’Date’列转换为DatetimeIndex格式。默认情况下,日期以字符串格式存储,这不是时间序列数据分析的正确格式。
# reading the dataset using read_csv
df = pd.read_csv("stock_data.csv",
parse_dates=True,
index_col="Date")
# displaying the first five rows of dataset
df.head()
输出
Unnamed: 0 Open High Low Close Volume Name
Date
2006-01-03 NaN 39.69 41.22 38.79 40.91 24232729 AABA
2006-01-04 NaN 41.22 41.90 40.77 40.97 20553479 AABA
2006-01-05 NaN 40.93 41.73 40.85 41.53