Datawhale打卡活动 Kaggle Spaceship Titanic Day2

Datawhale打卡活动 Kaggle Spaceship Titanic

尝试了一个coggle科学的打卡活动(Coggle 30 Days of ML(22年10月)),记录一下学习过程!

Day 2 比赛数据分析

步骤1:使用pandas完成如下数据分析

训练集和测试集的行数分别是多少?

通过.shape函数查看训练集和测试集的大概情况。
在这里插入图片描述

可以发现:在训练集中,数据有8693行、14列;在测试集中,数据有4277行,13列(没有label)。

训练集中每列的类型是什么?

通过info函数查看训练集中的类型以及缺失值情况。

在这里插入图片描述

可以看到,在训练集中Dtype为float64的有:Age、RoomService、FoodCourt、ShoppingMall、Spa、VRDeck;为object类型的有:PassengerId、HomePlanet、CryoSleep、Cabin、Destination、VIP、Name。然后label(也就是Transported)属于布尔类型。

训练集中标签是如何分布,与哪一个特征最相关?

通过对Transported列使用value_counts()函数,可以看出正负标签的占比约为1:1
在这里插入图片描述

对于数据的相关性分析,可以参考数据特征分析·相关性分析 - 知乎 (zhihu.com)

对原数据集直接绘图可以发现,绘制出的图像只包含了数据集中类型为数值的相关列。

在这里插入图片描述

并不包含所有列,这肯定不是我们希望看到的,所以我们对不是数值的属性作labelencoder,将其转化为数值,然后再进行绘图。
在这里插入图片描述

可以看出,Transported(label)与CryoSleep的相关性最高(也就是最相关)!

训练集中列缺失值如何分布的?

通过前面的info函数已经可以对缺失值有一个大概的认知,接下来通过.isna().sum()来查看各列具体的缺失值情况。

可以看出,总体缺失值较少,其中缺失值最多的那一列为ShoppingMall。

步骤2:使用seaborn或matplotlib完成如下可视化

这里查看两列的分布关系,我们使用了kde分布图(下面的每一个都是,代码在第一个作展示,后面只展示图),使用displot(结合了kde和hist)。

HomePlanet 与 Transported 的分布关系

在这里插入图片描述

CryoSleep 与 Transported 的分布关系

在这里插入图片描述

Cabin 与 Transported 的分布关系

在这里插入图片描述

Destination 与 Transported 的分布关系

在这里插入图片描述

Age 与 Transported 的分布关系

在这里插入图片描述

VIP 与 Transported 的分布关系

在这里插入图片描述

RoomService、FoodCourt、ShoppingMall、Spa、VRDeck 与 Transported 的分布关系

这一段,首先是将各个属性进行labelencoder之后再进行上述操作,画出二者的分布关系,由于每个图的情况均跟如下显示的差不多,所以不过多放图(这一步骤笔者不知道是没有理解到含义还是啥,如有错误,希望有前辈能够指出相应的错误,以及提点该如何做。)

在这里插入图片描述

Name 与 Transported 的分布关系

在这里插入图片描述

步骤3:根据上述分析结果,你找出什么规律,如什么类型的乘客更加容易被Transported?

通过对训练集中特征的分布以及相关性分析之后,可以发现,标签与CryoSleep的相关性最高(也就是最相关)。也就是说指示乘客选择在航行期间进入假死状态更容易被Transported。

练集中特征的分布以及相关性分析之后,可以发现,标签与CryoSleep的相关性最高(也就是最相关)。也就是说指示乘客选择在航行期间进入假死状态更容易被Transported。

【注】:以上便是对数据的初步分析,如有错处,烦请批评指正,谢谢!

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值