数据展示及特征选择

学习目标:

数据展示及特征选择


学习内容:

1.seaborn数据展示
2.缺失值填补
3.特征选择



学习产出:

一、seaborn绘图
seaborn一共有5个大类21种图,分别是:

Relational plots 关系类图表
relplot 关系类图表的接口,其实是下面两种图的集成,通过指定kind参数可以画出下面的两种图
scatterplot 散点图
lineplot 折线图
Categorical plots 分类图表 catplot 分类图表的接口,其实是下面八种图表的集成,,通过指定kind参数可以画出下面的八种图
stripplot 分类散点图
swarmplot 能够显示分布密度的分类散点图
boxplot 箱图
violinplot 小提琴图
boxenplot 增强箱图
pointplot 点图
barplot 条形图
countplot 计数图
Distribution plot 分布图
jointplot 双变量关系图
pairplot 变量关系组图
distplot 直方图,质量估计图
kdeplot 核函数密度估计图
rugplot 将数组中的数据点绘制为轴上的数据
Regression plots 回归图
lmplot 回归模型图
regplot 线性回归图
residplot 线性回归残差图
Matrix plots 矩阵图
heatmap 热力图
clustermap 聚集图

其中,使用过的函数:
countplot 计数图
fig = sns.violinplot(y=‘Fare’,hue = ‘Survived’, data=df)
#创建柱状计数图,统计数据集df中‘Survived’这个特征每种类别的数量

二、缺失值填补
对这些缺损的数据可以选择的处理方式由简到难包括:
1.直接删除此特征(缺损数据太多的情况,防止引入噪声)
2.直接删除缺损数据的样本(只用于训练数据集,且样本量较大,缺损数据样本较少的情况)
3.直接将有无数值作为新的特征(数据缺失较多,且数据有无本身是对预测是一个有用的特征)
4.中值或均值回补(缺失数据较多,不想损失此较多训练数据,特征又比较重要的情况,是比较常用的方法)
5.参考其他特征,利用与此特征的相关性编写算法回补数据(回补的准确性可能会比较高一些,但实现过程复杂)

其中,编写算法回补数据常用的方法有:插值法、knn、随机森林

参考资料:

  1. https://baijiahao.baidu.com/s?id=1715367416853516248&wfr=spider&for=pc
  2. https://blog.csdn.net/aicanghai_smile/article/details/79234172
  3. https://blog.csdn.net/qq_33499889/article/details/105593479
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值