深度之眼比赛实战训练营第01次答疑直播


一、缺失值的处理、数据标准化、EDA

使用pandas_Profiling实现对数据的EDA。
看数据的统计和数据的分布
统计分析,相关性图,Pearson系数(单变量)、Spearman系数(多变量)

  • 缺失值的处理:

(1)填充(以目标为导向,通过提交反馈选择用什么填充)

train.isnull() ==> 返回dataframe (train.isnull().sum() ==> 统计空值数量)

train.fillna(train[‘column_name’].mean()) # 用均值填充空值

(2)不处理

  • 数据的标准化问题:
from sklearn.preprocessing import StandarScaler, Normalizer, MinMaxScler, LableBinarizer, LabelEncoder, OneHotEncoder

# StandarScaler 标准化
# Normalizer 正规化
# MinMaxScler 最小最大值化
# LableBinarizer 二值化
# LabelEncoder 标签化
pd.unique(train['column_name']) ==> array(['value1','value2',...], dtype=object)
# OneHotEncoder 独热编码
pd.get_dummies(train['column_name']) # pandas直接实现独热编码
  • 标准化和归一化的区别:

​ 归一化:将整体数据缩放到[0,1]范围;把有量纲表达式转为无量纲表达式。

​ 标准化:将数据整体按比例缩放,使之落入一个小的特定区间。

  • 异常值的处理:

    (1)采用箱型图来进行数据可视化

    (2)采用散点图

二、环境配置问题
  • conda 虚拟环境
  • pip 本地环境
三、排名提升问题

特征工程

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值