1.数据抽取
本案列抽取的是2014-10-01到2014-11-16财务管理系统中某台服务器的磁盘的相关数据。在此要检验discdata.xls是否符合提取的要求。
import pandas as pd
import datetime
from pandas import Series
data=pd.read_excel(r'D:\file\book_pythonDADM\chapter11\demo\data\discdata.xls')
((data['COLLECTTIME']>=datetime.datetime.strptime('2014-10-01','%Y-%m-%d'))&(data['COLLECTTIME']<=datetime.datetime.strptime('2014-11-16','%Y-%m-%d'))).value_counts()
(data['SYS_NAME']=='财务管理系统').value_counts() #计数值
从结果可以看出数据是符合要求的。
2.数据探索分析
由于本案例是采用时间序列分析法进行建模的,故可以通过时序图来观测序列的平稳性。
data_c=data[(data['DESCRIPTION']=='磁盘已使用大小')&(data['ENTITY']=='C:\\')]['VALUE']
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei'] #正常显示中文标签
plt.plot(data_c,'b-o')
plt.title(u'C盘使用情况')
plt.show()
data_d=data[(data['DESCRIPTION']=='磁盘已使用大小')&(data['ENTITY']=='D:\\')][['VALUE','COLLECTTIME']]
plt.plot(data_d['VALUE'],'b-o')
plt.title(u'D盘使用情况')
plt.show()
得到如下结果图。
因此,可以初步确认数据是平稳的。