《python数据分析与挖掘实战》第11章应用系统负载分析与磁盘容量预测的程序实现--时间序列分析

本文通过Python进行数据分析与挖掘,探讨如何利用时间序列分析预测服务器磁盘容量,包括数据抽取、探索分析、预处理、模型构建与评价,最终实现磁盘使用率预警。
摘要由CSDN通过智能技术生成

1.数据抽取

本案列抽取的是2014-10-01到2014-11-16财务管理系统中某台服务器的磁盘的相关数据。在此要检验discdata.xls是否符合提取的要求。

import pandas as pd
import datetime
from pandas import Series
data=pd.read_excel(r'D:\file\book_pythonDADM\chapter11\demo\data\discdata.xls')

((data['COLLECTTIME']>=datetime.datetime.strptime('2014-10-01','%Y-%m-%d'))&(data['COLLECTTIME']<=datetime.datetime.strptime('2014-11-16','%Y-%m-%d'))).value_counts()
(data['SYS_NAME']=='财务管理系统').value_counts()     #计数值

从结果可以看出数据是符合要求的。

2.数据探索分析

由于本案例是采用时间序列分析法进行建模的,故可以通过时序图来观测序列的平稳性。

data_c=data[(data['DESCRIPTION']=='磁盘已使用大小')&(data['ENTITY']=='C:\\')]['VALUE']
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei']     #正常显示中文标签
plt.plot(data_c,'b-o')
plt.title(u'C盘使用情况')
plt.show()

data_d=data[(data['DESCRIPTION']=='磁盘已使用大小')&(data['ENTITY']=='D:\\')][['VALUE','COLLECTTIME']]
plt.plot(data_d['VALUE'],'b-o')
plt.title(u'D盘使用情况')
plt.show()

得到如下结果图。

因此,可以初步确认数据是平稳的。

3.数据预处理

3.1数据清理

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值