加载数据
path='*****.csv'
df_train = pd.read_csv(path)
查看数据
data.head(5) #显示前5行数据
data.tail(5) #显示后5行
data.columns #查看列名
data.info() #查看各字段的信息
data.shape #查看数据集行列分布,几行几列
data.describe() #查看数据的大体情况
print(data.describe())
###统计每列数据的缺失值,并从多到少排序
total = data.isnull().sum().sort_values(ascending=False)#统计每列数据的缺失值,并从多到少排序
#输出百分比
print(total)
percent =(train.isnull().sum()/train.isnull().count()).sort_values(ascending=False)
missing_data = pd.concat([total, percent], axis=1, keys=['Total', 'Percent'])
missing_data.head(20)