python特征图可视化_Python机器学习10:使用Pandas可视化训练数据集的五种方法(上)...

在机器学习中,通常需要先了解训练的数据集,才能决定选择哪种特征预处理方法、哪种模型,以便获得问题的最优解法。最有效的了解训练数据集的方法是可视化训练数据集,从各种可视化的图中观察训练数据集特征。

本文将介绍如何使用Python机器学习库Pandas可视化训练数据集。Pandas是Python中高效的数据加载、数据分析工具,它是基于NumPy实现的,提供了很多有用的函数接口。

9213b07eca80653824bfd306dbc61340ad348269.jpeg?token=c2589b24e3238ed6ec6aaf38885db6a5&s=61361C724500E91B99F8F1C20200F0B0

引言

本教程将介绍5中常用的机器学习可视化方法,分别如下所示。本教程将分为上下两篇文章进行介绍,本文为上篇,主要介绍前两种可视化方法;后面三种可视化方法将在下篇文章中介绍,欢迎关注我的百家号!

直方图密度图箱线图相关系数矩阵图散点矩阵图上述五种可视化方法可根据变量的维度,将其划分为单变量可视化方法和多变量可视化方法。第1、2、3种方法为单变量可视化方法,第4、5种为多变量可视化方法。

本文使用的数据集来自UCI机器学习库的标准二分类数据集——Pima Indians糖尿病数据集,该数据集描述了印第安人的医疗记录以及每位患者是否在五年内患有糖尿病。该数据集有8个特征和2个类别,每个特征都是数值型,类别为0和1,这是一个非常典型的二分类数据集。

直方图

直方图的优点是能够快速了解每个特征分布情况。

直方图将同一特征的数据分到相同的柱体中,并统计每个柱体的数据量。根据直方图的形状,可以快速了解特征是高斯分布、倾斜分布还是指数分布等。通过直方图还可以观察到数据中的异常值。

使用pandas制作直方图的代码如下所示:

6a600c338744ebf814c26ecc95e2652e6159a7b5.png?token=6f9c81e09eeb872f00e87f1e31f9610e

运行代码,将得到如下直方图。从图中可以看出,特征age、pedi和test呈指数分布,特征mass、pres和plas呈高斯分布。

9f2f070828381f30e2b4a836e41afe0c6f06f09b.png?token=2037edb4836d9e1af0c227f598b57283&s=38297032DAB751B9826E86C6030090A6

密度图

密度图是另一种快速了解每个特征分布的可视化方法。密度图看起来像将直方图进行抽象化,相当于连接直方图的每个柱体顶部点,最终绘制了一条平滑的曲线。

使用pandas制作密度图的代码如下所示。

a1ec08fa513d26973c8ff28b19e000ff4216d8ac.png?token=7158e6536d6bd2296984c95cec606959

运行该代码,将得到如下所示的密度图。从图中更加清晰地看出,特征age、pedi和test呈指数分布,特征mass、pres和plas呈高斯分布。

e824b899a9014c085ab8f6e94760b00c7af4f49f.png?token=d7b1844d82e464617c29b26b66f986a0&s=5A8A7E23118FD0EB4A5531DF0300C0B2

小结

本文介绍了机器学习中单维变量可视化方法,包括直方图和密度图。直方图相比密度图,前者能够清晰地看出每个取值的数据量,后者能够清晰地看出特征的分布曲线。通过本文的学习,你应该学会了这两种图的代码实现和使用场景。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值