(学了新东西再更)
train.csv = X |y
= X_train |y_trian
X_test |y_test
.Train.csv(文件链接,3M)
目录:
一、数据预览
1.DataFrame预览:
train.head() # 查看前五行
train.describe() # 查看数值型列
train.shape
train.columns #取columns,可.tolist()转化
train.columns.values #直接获取列的值
# 当列数太多显示不全时,可以通过pd.set_option('display.max_columns',num)来设置能显示的最大列数,其中num为传入的参数,如25;之后还可以通过pd.reset_option('display.max_columns')恢复默认设置
2.DataFrame查看特定行列:
train.loc[0:5,'age','job'] #双闭,前6行,前2列
train.iloc[0:5,0:1] #左闭右开,前5行,前1列
train['age'] #age列,type=Series
train.age #和train['age']相同
train[['age','marital']] #取两列
train['age'][0:5] #左闭右开,age列,前5行
3.DataFrame查看列的级别(即“取值范围”):
#方法一:
train['age'].value_counts().index #获取级别,按计数降序排列
#方法二:(不常用, 一般使用方法一。假装已经'import pandas as pd'了)
pd.Series(train['age'].values).unique() #type=array,顺序为该值在df中的出现顺序,数值型可.sort()排序
4.DataFrame计数:
train['age'].values #type=array,顺序为df.index的顺序
train['age'].value_counts() #type=Series,已按number降序排列
train['age'].value_counts().index #获取级别(即“索引”)
train['age'].value_counts().values #获取number
# ↑,注意上面这三行代码的结果都是按照number降序排列的
#使用numpy的