spacetitanic 使用决策树分类

Spaceship Titanic | Kaggleicon-default.png?t=N7T8https://www.kaggle.com/competitions/spaceship-titanic

导入数据分析及调用接口所需库

读取csv文件数据并使用.head()查看头部信息

描述数据,使用.info()函数获取对象的详细信息

通过.describe()方法会生成一个统计摘要,并.unique()获取特定列的唯一值

接下来进行数据的清洗填充,是用.isnull()查看缺失值

这里没有从训练数据中删除空值,而是为分类数据插补最常重复的值,并为数值数据插补平均值

查看清洗后的缺失值情况:

进行预处理

使用scikit-learn库的LabelEncoder类对数据进行编码,将特定列中的所有文本标签转换为它们在数据集中的唯一编码

在上述数据中,HomePlanet、CryoSleep、Destination、Age、VIP、RoomService、FoodCourt、ShoppingMall、Spa、VRDech 是自变量。传输是因变量

提取数据特征

创建决策树模型

因为数据中分为train.csv和test.csv,在test中缺少是否获救这一属性,因此想要得到模型的准确率我选择在train中以8:2划分训练集与验证集,将决策树的最大层度进行限制(max_depth),得到准确率大概为0.7614。

决策树可视化

导入所需包与初始化

查看测试集test数据

对测试集进行与训练集相同的数据处理

对测试集进行与训练集相同特征化处理

使用测试集数据进行预测

输出结果保存为csv文件

输出结果展示:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值