将表格读取到dataframe 导入表格时选取部分列
dataset = pd.read_excel(excel_path, usecols=[0,1, 2, 3, 4, 5, 6])
查看所有的列
dataset.columns.values
描述所有的特征
dataset.describe()
修改dataframe的列名
dataset.rename(columns={'旧列名':'新列名'},inplace=True)
查看空准确率
dataset['列名'].value_counts()
查看相关性
corr_matrix = df.corr()
corr_matrix["列名"].sort_values(ascending=False)
生成饼图
import matplotlib.pyplot as plt
%matplotlib inline
plt.style.use('fivethirtyeight')
plt.rcParams['font.sans-serif']=['SimHei']
dataset['列名'].value_counts().plot(kind='pie')
删除空值
dataset.dropna(axis=0, how='any', inplace=True)
替换、填充空值/无穷
train_df['列名'].replace(np.nan, 0, inplace=True)
train_df['列名'].replace(np.inf, 0, inplace=True)
train_df['列名'].fillna(train_df['列名'].median(), inplace = True)<