Spaceship Titanic | Kagglehttps://www.kaggle.com/competitions/spaceship-titanic
导入数据分析及调用接口所需库
读取csv文件数据并使用.head()查看头部信息
描述数据,使用.info()函数获取对象的详细信息
通过.describe()
方法会生成一个统计摘要,并.unique()获取特定列的唯一值
接下来进行数据的清洗填充,是用.isnull()查看缺失值
这里没有从训练数据中删除空值,而是为分类数据插补最常重复的值,并为数值数据插补平均值
查看清洗后的缺失值情况:
进行预处理
使用scikit-learn库的LabelEncoder类对数据进行编码,将特定列中的所有文本标签转换为它们在数据集中的唯一编码
在上述数据中,HomePlanet、CryoSleep、Destination、Age、VIP、RoomService、FoodCourt、ShoppingMall、Spa、VRDech 是自变量。传输是因变量
提取数据特征
创建决策树模型
因为数据中分为train.csv和test.csv,在test中缺少是否获救这一属性,因此想要得到模型的准确率我选择在train中以8:2划分训练集与验证集,将决策树的最大层度进行限制(max_depth),得到准确率大概为0.7614。
决策树可视化
导入所需包与初始化
查看测试集test数据
对测试集进行与训练集相同的数据处理
对测试集进行与训练集相同特征化处理
使用测试集数据进行预测
输出结果保存为csv文件
输出结果展示: