【kaggle】Spaceship Titanic - 预测哪些乘客被运送到另一个维度【CatBoost - 10%】

Bessie_Lee_gogogo

已于 2022-08-15 16:39:43 修改

阅读量1.8k

点赞数 3

分类专栏：天池/kaggle比赛文章标签： python 机器学习人工智能 kaggle

于 2022-07-26 01:52:37 首次发布

本文链接：https://blog.csdn.net/weixin_42198265/article/details/125986417

版权

天池/kaggle比赛专栏收录该内容

11 篇文章 2 订阅

订阅专栏

一、赛题

Spaceship Titanic - 预测哪些乘客被运送到另一个维度：https://www.kaggle.com/competitions/spaceship-titanic

结果：
在这里插入图片描述

二、代码（可以直接放到kaggle运行）

# K折
from sklearn.model_selection import KFold
# 基础包
import pandas as pd
import numpy as np

# 模型
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
import xgboost as xgb
import lightgbm as lgb
from catboost import CatBoostClassifier
# 评价指标

from sklearn.metrics import mean_squared_error

train = pd.read_csv('../input/spaceship-titanic/train.csv')
test = pd.read_csv('../input/spaceship-titanic/test.csv')
sample = pd.read_csv('../input/spaceship-titanic/sample_submission.csv')

# 用前一行的值填补空值
train.fillna(method='pad',axis=0,inplace=True)
test.fillna(method='pad',axis=0,inplace=True)

# 类型转换
train['Cabin'] = train['Cabin'].astype(str)
train['PassengerId'] = train['PassengerId'].astype(str)
cabin = train['Cabin']
PassengerId = train['PassengerId']

# 分割数据，插入数据集
from sqlalchemy import null
cabin_list = []
PassengerId_list = []

deck_list = []
num_list = []
side_list = []
Passenger_list = []
Id_list = []

# 分割数据，插入数据集
for i in cabin:
    cabin_list.append(i.split('/'))

for i_1 in cabin_list:
    # 处理cabin
    deck = i_1[0]
    num = int(i_1[1])
    side = i_1[2]
    deck_list.append(deck)
    num_list.append(num)
    side_list.append(side)

for j in PassengerId:
    PassengerId_list.append(j.split('_'))

for j_1 in PassengerId_list:
    Passenger = int(j[0])
    Id = int(j[1])
    Passenger_list.append(Passenger)
    Id_list.append(Id)

train.insert(0,'deck',deck_list)
train.insert(1,'num',num_list)
train.insert(2,'side',side_list)
train.insert(3,'Passenger',Passenger_list)
train.insert(4,'Id',Id_list)

# 类型转换
test['Cabin'] = test['Cabin'].astype(str)
test['PassengerId'] = test['PassengerId'].astype(str)
cabin = test['Cabin']
PassengerId = test['PassengerId']

# 分割数据，插入数据集
from sqlalchemy import null
cabin_list = []
PassengerId_list = []

deck_list = []
num_list = []
side_list = []
Passenger_list = []
Id_list = []

# 分割数据，插入数据集
for i in cabin:
    cabin_list.append(i.split('/'))

for i_1 in cabin_list:
    # 处理cabin
    deck = i_1[0]
    num = int(i_1[1])
    side = i_1[2]
    deck_list.append(deck)
    num_list.append(num)
    side_list.append(side)

for j in PassengerId:
    PassengerId_list.append(j.split('_'))

for j_1 in PassengerId_list:
    Passenger = int(j[0])
    Id = int(j[1])
    Passenger_list.append(Passenger)
    Id_list.append(Id)

test.insert(0,'deck',deck_list)
test.insert(1,'num',num_list)
test.insert(2,'side',side_list)
test.insert(3,'Passenger',Passenger_list)
test.insert(4,'Id',Id_list)

drop_columns = ['Name','HomePlanet','Destination','Cabin','PassengerId']
train.drop(drop_columns,axis=1,inplace=True)
test.drop(drop_columns,axis=1,inplace=True)

# 处理train字符串
for i in range(8693):
    train['deck'][i] = ord(train['deck'][i])
    train['side'][i] = ord(train['side'][i])

# 处理test字符串
for j in range(4277):
    test['deck'][j] = ord(test['deck'][j])
    test['side'][j] = ord(test['side'][j])

train['CryoSleep'] = train['CryoSleep'].astype('int')
train['VIP'] = train['VIP'].astype('int')
train['deck'] = train['deck'].astype('int')
train['side'] = train['side'].astype('int')

test['CryoSleep'] = test['CryoSleep'].astype('int')
test['VIP'] = test['VIP'].astype('int')
test['deck'] = test['deck'].astype('int')
test['side'] = test['side'].astype('int')

train['Transported'] = train['Transported'].astype('int')
c = ['deck','num','side','Passenger','Id', 'CryoSleep', 'Age','VIP','RoomService',
       'FoodCourt','ShoppingMall','Spa','VRDeck']
target = train['Transported']

from sklearn.model_selection import train_test_split
#划分训练集、测试集
train_data, test_data, train_target, test_target = train_test_split(train[c],target, test_size = 0.3)

clf = CatBoostClassifier()
clf.fit(train_data,train_target)
test_pred = clf.predict(test_data)
score =  mean_squared_error(test_target,test_pred)
print(score) # 0.80547

last_pred = clf.predict(zuhe_test)
last_pred = np.array (last_pred, dtype = bool)

#Kaggle需要提交最终的csv文件，所以输出一个csv文件：
sample['Transported']=last_pred

sample.to_csv('submission.csv', index=False)

Bessie_Lee_gogogo

关注

3
点赞
踩
20

收藏

觉得还不错? 一键收藏
打赏
3
评论
【kaggle】Spaceship Titanic - 预测哪些乘客被运送到另一个维度【CatBoost - 10%】

【kaggle】Spaceship Titanic - 预测哪些乘客被运送到另一个维度【CatBoost - 10%】有看不懂的地方直接评论区私聊即可，看到就会回复。
复制链接

扫一扫