深度之眼比赛实战训练营第01次答疑直播

最新推荐文章于 2020-02-10 20:19:35 发布

木柘

最新推荐文章于 2020-02-10 20:19:35 发布

阅读量392

点赞数

分类专栏：机器学习深度之眼比赛实战训练营文章标签： Python 机器学习

本文链接：https://blog.csdn.net/sagepyt/article/details/99823409

版权

机器学习同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

深度之眼比赛实战训练营

11 篇文章 3 订阅

订阅专栏

一、缺失值的处理、数据标准化、EDA

使用pandas_Profiling实现对数据的EDA。
看数据的统计和数据的分布
统计分析，相关性图，Pearson系数（单变量）、Spearman系数（多变量）

缺失值的处理：

（1）填充（以目标为导向，通过提交反馈选择用什么填充）

train.isnull() ==> 返回dataframe （train.isnull().sum() ==> 统计空值数量）

train.fillna(train[‘column_name’].mean()) # 用均值填充空值

（2）不处理

数据的标准化问题：

from sklearn.preprocessing import StandarScaler, Normalizer, MinMaxScler, LableBinarizer, LabelEncoder, OneHotEncoder

# StandarScaler 标准化
# Normalizer 正规化
# MinMaxScler 最小最大值化
# LableBinarizer 二值化
# LabelEncoder 标签化
pd.unique(train['column_name']) ==> array(['value1','value2',...], dtype=object)
# OneHotEncoder 独热编码
pd.get_dummies(train['column_name']) # pandas直接实现独热编码

标准化和归一化的区别：

归一化：将整体数据缩放到[0，1]范围；把有量纲表达式转为无量纲表达式。

标准化：将数据整体按比例缩放，使之落入一个小的特定区间。

异常值的处理：

（1）采用箱型图来进行数据可视化

（2）采用散点图

二、环境配置问题

conda 虚拟环境
pip 本地环境

三、排名提升问题

特征工程

木柘

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深度之眼比赛实战训练营第01次答疑直播

一、缺失值的处理、数据标准化、EDA使用pandas_Profiling实现对数据的EDA。看数据的统计和数据的分布统计分析，相关性图，Pearson系数（单变量）、Spearman系数（多变量）缺失值的处理：（1）填充（以目标为导向，通过提交反馈选择用什么填充）train.isnull() ==> 返回dataframe （train.isnull().sum() =...
复制链接

扫一扫