log.txt文件记录了某个项目中某个api的调用情况,采样时间为每分钟一次,包括调用次数、
响应时 间等信息,大约18万条数据,请进行探索性数据分析
- 请将数据导入pandas中,加上列名,如下图所示
各列对应含义如下 5分
列名 描述
id 自增字段
api api对应的url
count 单位时间内被访问的次数
res_time_sum 响应时间总和(毫秒)
res_time_min 最小响应时间
res_time_max 最大响应时间
res_time_avg 平均值
interval 采样间隔时间(秒)
created_at 创建日志时间
打开文件
df=pd.read_csv('./log.txt',header=None,sep='\t')#header=None>将第一行数据也归进来
设置列名
df.columns= ['id', 'api', 'count', 'res_time_sum', 'res_time_min', 'res_time_max', 'res_time_avg', 'interval', 'created_at']#加上列名
df.head()#测试
- 检测是否有重复值 5分
#2 检测是否有重复值
df['api'].describe()
- 检测是否有异常值 5分
#3. 检测是否有异常值
# >>有。
df.index=pd.to_datetime(df['created_at'])#使用created_at这一列的数据作为时间索引
df['2019-5-1'][['count']].boxplot(showmeans=True,meanline=True)
plt.show()
#输出异常值
df[df['count']