由于task2打卡失误,仅包含赛题理解,所以在task3中做一个补充~~
task2补充
EDA中使用到的基本方法:
data.shape()查看数据行列总数
data.head().append(data.tail())查看首尾五行
data.describe()查看均值,标准差,数据分布等
data.info()数据信息
data.isnull().sum()查看数据为空总数
missingno绘制缺失数据分布图
seaborn包中sns.distplot绘图
.skew()和.kurt()查看偏度和峰值
.format(features,data[features].nunique())格式化输出不同的特征值
data.corr()查看数据相关系数
sns.heatmap()绘制数据热力图
sns.FacetGrid画出轮廓,然后用map填充内容
sns.pairplot()特征之间的相互关系可视化
以下为多变量间的关系可视化
fig, ((ax1, ax2), (ax3, ax4), (ax5, ax6), (ax7, ax8), (ax9, ax10)) = plt.subplots(nrows=5, ncols=2, figsize=(24, 20))
task3-特征工程
常见特征工程处理方法:
1.异常处理
使用箱线图去除异常值
- 箱子的中间一条线,是数据的中位数,代表了样本数据的平均水平。
- 箱子的上下限,分别是数据的上四分位数和下四分位数。这意味着箱子包含了50%的数据。因此&#