2021-07-02

室内运动分类竞赛—EDA(数据探索性分析)

step1 导入包

# 导入包
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matploylib inline#让图像再交互窗口console显示

step2 导入数据

#step 2 导入数据
df_train=pd.read_csv('train.csv')
#查看前5行数据
df_train.head()

step3 查看数据形状(行数列数缺失值情况)

df_train.shape
df_train.isnull()
#查看两种类型数据比例,样本比例
df_train['CLASS'].value_counts()

step4 查看时间序列数据最大最小值

# 去掉数据的ID和CLASS列
tmp=df_train[df_train.columns.difference(['ID','CLASS'])]
df_sta={'max':[],'min':[],'mean':[],'std':[]}
#使用循环,遍历每一行时间序列数据
for i in range(len(tmp)):
	df_sta['max'].append(np.max(tmp.iloc[i]))
	df_sta['min'].append(np.min(tmp.iloc[i]))
	df_sta['mean'].append(np.mean(tmp.iloc[i]))
	df_sta['std'].append(np.std(tmp.iloc[i]))
#转换成DataFrame格式
df_sta=pd.DataFrame(df_sta)
#基本统计信息,显示300行
pd.set_option('max_raw',300)

step5 画图查看不同类型时间序列的特征

num=1
df_class1=tmp[df_traim.CLASS==1]
df_class0=tmp[df_train.CLASS==0]
r_choice1=np.random.choice(len(df_class1),num)
r_choice2=np.random.choice(len(df_class2),num)
plt.figure(dpi=200)
plt.plot(df_class1.iloc[r_choice1].T)
plt.plot(df_class0.iloc[r_choice0].T)

知识点整理

1.difference(columns_names)得到dataframe中除了columns_names之外的所有变量

wine[wine.columns.difference(['quality', 'type', 'is_sample'])].columns

在这里插入图片描述

2.np.random.choice()得到dataframe中除了columns_names之外的所有变量

numpy.random.chioce(a,size=None,replace=True,p=None)
#a,从a中随机抽取数字,a可以是数组、列表等,并指定组成size的数组或者个数
#replace:True表示可以取相同数字,False表示不可以取相同数字
#p:每个元素被抽到的概率,默认为相同
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值