宇宙飞船泰坦尼克号

在2912年,一艘名为泰坦尼克号的宇宙飞船在星际旅行中遭遇时空异常,导致一半乘客失踪。通过分析恢复的数据,包括乘客的个人信息、旅行状态等,利用机器学习进行预测,初始模型预测正确率已从50%提升到70%以上。未来工作包括深入研究各消费数据的影响、优化缺失值填充和分类数据探索。

背景

欢迎来到 2912 年,您需要数据科学技能来解决宇宙之谜。我们收到了四光年外的信号,情况看起来不太妙。

宇宙飞船泰坦尼克号是一个月前发射的星际客轮。船上有近 13,000 名乘客,这艘船开始了处女航,将太阳系的移民运送到围绕附近恒星运行的三颗新可居住的系外行星。

在绕过半人马座阿尔法星前往它的第一个目的地——炎热的巨蟹座 55 E 时,粗心的宇宙飞船泰坦尼克号与隐藏在尘埃云中的时空异常相撞。可悲的是,它遭遇了与 1000 年前同名的命运相似的命运。虽然船完好无损,但几乎有一半的乘客被运送到了异次元!

您的任务是预测在泰坦尼克号飞船与时空异常相撞期间是否有乘客被运送到另一个维度。为了帮助你做出这些预测,你会得到一组从船上受损的计算机系统中恢复的个人记录。

以下是数据集的一些信息:

  • PassengerId - 每位乘客的唯一 ID。每个 Id 采用 gggg_pp 的形式,其中 gggg 表示乘客旅行的组,pp 是他们在组中的编号。群体中的人通常是家庭成员,但并非总是如此。
  • HomePlanet - 乘客离开的星球,通常是他们的永久居住星球。
  • CryoSleep - 指示乘客是否选择在航行期间进入假死状态。处于低温睡眠状态的乘客被限制在他们的客舱内。
  • Cabin - 乘客入住的客舱编号。采用deck/num/side 形式,其中side 可以是P 代表左舷或S 代表右舷。
  • Destination - 乘客将要去的星球。
  • Age - 乘客的年龄。
  • VIP - 乘客在航程中是否支付了特殊的 VIP 服务费用。
  • RoomServiceFoodCourtShoppingMallSpaVRDeck - 乘客在泰坦尼克号宇宙飞船的众多豪华设施中所支付的金额。
  • Name - 乘客的名字和姓氏。
  • Transported - 乘客是否被运送到另一个维度。这是目标,您要预测的列。

数据导入

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import matplotlib
%matplotlib inline
train_data = pd.read_csv(r'.\spaceship-titanic\train.csv')
test_data = pd.read_csv(r'.\spaceship-titanic\test.csv')
submission = pd.read_csv(r'.\spaceship-titanic\sample_submission.csv')
train_data.head()
PassengerId HomePlanet CryoSleep Cabin Destination Age VIP RoomService FoodCourt ShoppingMall Spa VRDeck Name Transported
0 0001_01 Europa False B/0/P TRAPPIST-1e 39.0 False 0.0 0.0 0.0 0.0 0.0 Maham Ofracculy False
1 0002_01 Earth False F/0/S TRAPPIST-1e 24.0 False 109.0 9.0 25.0 549.0 44.0 Juanna Vines True
2 0003_01 Europa False A/0/S TRAPPIST-1e 58.0 True 43.0 3576.0 0.0 6715.0 49.0 Altark Susent False
3 0003_02 Europa False A/0/S TRAPPIST-1e 33.0 False 0.0 1283.0 371.0 3329.0 193.0 Solam Susent False
4 0004_01 Earth False F/1/S TRAPPIST-1e 16.0 False 303.0 70.0 151.0 565.0 2.0 Willy Santantines True
train_data.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8693 entries, 0 to 8692
Data columns (total 14 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   PassengerId   8693 non-null   object 
 1   HomePlanet    8492 non-null   object 
 2   CryoSleep     8476 non-null   object 
 3   Cabin         8494 non-null   object 
 4   Destination   8511 non-null   object 
 5   Age           8514 non-null   float64
 6   VIP           8490 non-null   object 
 7   RoomService   8512 non-null   float64
 8   FoodCourt     8510 non-null   float64
 9   ShoppingMall  8485 non-null   float64
 10  Spa           8510 non-null   float64
 11  VRDeck        8505 non-null   float64
 12  Name          8493 non-null   ob
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值