一、缺失值的处理、数据标准化、EDA
使用pandas_Profiling实现对数据的EDA。
看数据的统计和数据的分布
统计分析,相关性图,Pearson系数(单变量)、Spearman系数(多变量)
- 缺失值的处理:
(1)填充(以目标为导向,通过提交反馈选择用什么填充)
train.isnull() ==> 返回dataframe (train.isnull().sum() ==> 统计空值数量)
train.fillna(train[‘column_name’].mean()) # 用均值填充空值
(2)不处理
- 数据的标准化问题:
from sklearn.preprocessing import StandarScaler, Normalizer, MinMaxScler, LableBinarizer, LabelEncoder, OneHotEncoder
# StandarScaler 标准化
# Normalizer 正规化
# MinMaxScler 最小最大值化
# LableBinarizer 二值化
# LabelEncoder 标签化
pd.unique(train['column_name']) ==> array(['value1','value2',...], dtype=object)
# OneHotEncoder 独热编码
pd.get_dummies(train['column_name']) # pandas直接实现独热编码
- 标准化和归一化的区别:
归一化:将整体数据缩放到[0,1]范围;把有量纲表达式转为无量纲表达式。
标准化:将数据整体按比例缩放,使之落入一个小的特定区间。
-
异常值的处理:
(1)采用箱型图来进行数据可视化
(2)采用散点图
二、环境配置问题
- conda 虚拟环境
- pip 本地环境