服务器日志数据分析

通过对log.txt文件的18万条数据进行分析,研究了api调用次数、响应时间和采样间隔。检测并处理了重复值和异常值。发现api调用在下午和晚上有明显高峰,尤其是下午两三点和晚上八九点。进一步对每天每小时的平均调用次数进行采样,并使用箱线图检查异常值,对比了工作日和周末的调用模式。
摘要由CSDN通过智能技术生成

log.txt文件记录了某个项目中某个api的调用情况,采样时间为每分钟一次,包括调用次数、
响应时 间等信息,大约18万条数据,请进行探索性数据分析

  1. 请将数据导入pandas中,加上列名,如下图所示
    图例

各列对应含义如下 5分
列名 描述
id 自增字段
api api对应的url
count 单位时间内被访问的次数
res_time_sum 响应时间总和(毫秒)
res_time_min 最小响应时间
res_time_max 最大响应时间
res_time_avg 平均值
interval 采样间隔时间(秒)
created_at 创建日志时间

打开文件
df=pd.read_csv('./log.txt',header=None,sep='\t')#header=None>将第一行数据也归进来
设置列名
df.columns= ['id', 'api', 'count', 'res_time_sum', 'res_time_min', 'res_time_max', 'res_time_avg', 'interval', 'created_at']#加上列名
df.head()#测试
  1. 检测是否有重复值 5分
#2 检测是否有重复值
df['api'].describe()

在这里插入图片描述

  1. 检测是否有异常值 5分
#3. 检测是否有异常值
#  >>有。
df.index=pd.to_datetime(df['created_at'])#使用created_at这一列的数据作为时间索引
df['2019-5-1'][['count']].boxplot(showmeans=True,meanline=True)
plt.show()
#输出异常值
df[df['count'] 
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值