服务器日志数据分析

最新推荐文章于 2024-06-13 16:21:42 发布

妮酱也爱敲代码

最新推荐文章于 2024-06-13 16:21:42 发布

阅读量999

点赞数 1

文章标签：数据分析

本文链接：https://blog.csdn.net/lildn/article/details/109708613

版权

通过对log.txt文件的18万条数据进行分析，研究了api调用次数、响应时间和采样间隔。检测并处理了重复值和异常值。发现api调用在下午和晚上有明显高峰，尤其是下午两三点和晚上八九点。进一步对每天每小时的平均调用次数进行采样，并使用箱线图检查异常值，对比了工作日和周末的调用模式。

摘要由CSDN通过智能技术生成

log.txt文件记录了某个项目中某个api的调用情况，采样时间为每分钟一次，包括调用次数、
响应时间等信息，大约18万条数据，请进行探索性数据分析

请将数据导入pandas中，加上列名，如下图所示

各列对应含义如下 5分
列名描述
id 自增字段
api api对应的url
count 单位时间内被访问的次数
res_time_sum 响应时间总和(毫秒)
res_time_min 最小响应时间
res_time_max 最大响应时间
res_time_avg 平均值
interval 采样间隔时间(秒)
created_at 创建日志时间

打开文件
df=pd.read_csv('./log.txt',header=None,sep='\t')#header=None>将第一行数据也归进来
设置列名
df.columns= ['id', 'api', 'count', 'res_time_sum', 'res_time_min', 'res_time_max', 'res_time_avg', 'interval', 'created_at']#加上列名
df.head()#测试

检测是否有重复值 5分

#2 检测是否有重复值
df['api'].describe()

在这里插入图片描述

检测是否有异常值 5分

#3. 检测是否有异常值
#  >>有。
df.index=pd.to_datetime(df['created_at'])#使用created_at这一列的数据作为时间索引
df['2019-5-1'][['count']].boxplot(showmeans=True,meanline=True)
plt.show()
#输出异常值
df[df['count']

最低0.47元/天解锁文章

妮酱也爱敲代码

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
服务器日志数据分析

log.txt文件记录了某个项目中某个api的调用情况，采样时间为每分钟一次，包括调用次数、响应时间等信息，大约18万条数据，请进行探索性数据分析请将数据导入pandas中，加上列名，如下图所示各列对应含义如下 5分列名描述id 自增字段api api对应的urlcount 单位时间内被访问的次数res_time_sum 响应时间总和(毫秒)res_time_min 最小响应时间res_time_max 最大响应时间res_time_avg 平均值interval 采样间隔
复制链接

扫一扫