机器学习竞赛第一关：观数

最新推荐文章于 2024-06-25 00:33:22 发布

AnFany

最新推荐文章于 2024-06-25 00:33:22 发布

阅读量302

点赞数

文章标签：机器学习竞赛数据集分析 python3 matplotlib

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_32882309/article/details/93716195

版权

机器学习竞赛其实就是一场烹饪大赛，其中数据集是食材，数据预处理是对食材进行择洗，特征工程是搭配食材，建模是选择烹饪方式，当然你也可以做出多种大菜，最后来个鸡尾酒式的摆盘，也就是模型融合，最终食神奖牌非你莫属。

本文介绍第一步，也就是分析给出的数据集，自动生成.word格式的数据集报告。此文中的数据集的形式为数据类型，对于图片、文本、声音等形式的数据集并不适用。根据目标特征的属性不同，对数据进行不同的展示。目标特征为数值型的数据集以Kaggle House Prices数据集为例，目标特征为类别型的数据集以Kaggle Titanic数据集为例。

数据集报告分为下面五部分：

一、数据概览

利用pandas读取数据文件，获得DataFrame格式的数据df，利用df.info得到数据集的概览，见下图：
在这里插入图片描述
二、缺失值分析

给出含有缺失值的字段和该字段的缺失率，其中按照缺失率从大到小排列。见下图：
在这里插入图片描述
三、每个特征的值的分布

下面针对特征的不同类型给出不同的展示。因为数据集中有些特征虽然是数值型，但是其实可以看作类别型，这些特征需要在程序中自定义设置。

类别型特征：柱状图
数值型特征：带有概率密度的直方图
四、特征与目标字段之间的关系

下面给出每一个特征与目标字段之间的关系，其中目标字段需要在程序中设置。根据特征和目标字段的不同类型，利用不同的图展示两者之间的关系。

目标字段：类别型
特征：类别型

目标字段和特征均为类别型，则输出带有分类标识的柱状图以及各个类别对应的不同的特征的数。见下图：
在这里插入图片描述

特征：数值型

目标字段为类别型，特征为数值型，输出带有分类标识的概率密度直方图。见下图：
在这里插入图片描述

目标字段：数值型
特征字段：类别型

目标字段为数值型，特征为类别型，输出带有分类标识的概率密度直方图。见下图：
在这里插入图片描述

特征字段：数值型

目标字段为数值型，特征为数值型，输出带有皮尔逊系数的散点图。见下图：
在这里插入图片描述

五、其他

关注公众号python范儿，回复关键词gs，获取自动生成数据报告的源程序。

在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

AnFany CSDN认证博客专家 CSDN认证企业博客

码龄9年

北京师范大学

147: 原创

1万+: 周排名

1万+: 总排名

12万+: 访问

: 等级

2733: 积分

445: 粉丝

445: 获赞

26: 评论

598: 收藏

私信

关注

热门文章

分类专栏

最新评论

Python精选200Tips：21-30
小王毕业啦: 博主的文章让我对Python这个主题有了全新的认识，精选的200个Tips真是涵盖了很多实用技巧，让我受益匪浅。文章中的细节描写非常到位，体现了博主的深厚功底和丰富经验。期待博主未来能够持续分享更多类似的好文，让读者们能够不断学习进步。同时也希望能够得到博主的指导和支持，共同探讨技术，共同进步。非常感谢博主的辛苦分享和支持！希望能够多多关注和转发这篇优质的文章，让更多人受益。
Python精选200Tips：11-20
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
Python3机器学习实践：逻辑回归【实例：心脏病预测】
AnFany: 文章最后，有源码链接。
Python3机器学习实践：逻辑回归【实例：心脏病预测】
AnFany: 文章最后，源（yuan 2）码（ma 3）下（下 4）载（zai 4）。
Python3机器学习实践：逻辑回归【实例：心脏病预测】
s163718834: 没代码大家别买浪费钱

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

AnFany 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。