背景
欢迎来到 2912 年,您需要数据科学技能来解决宇宙之谜。我们收到了四光年外的信号,情况看起来不太妙。
宇宙飞船泰坦尼克号是一个月前发射的星际客轮。船上有近 13,000 名乘客,这艘船开始了处女航,将太阳系的移民运送到围绕附近恒星运行的三颗新可居住的系外行星。
在绕过半人马座阿尔法星前往它的第一个目的地——炎热的巨蟹座 55 E 时,粗心的宇宙飞船泰坦尼克号与隐藏在尘埃云中的时空异常相撞。可悲的是,它遭遇了与 1000 年前同名的命运相似的命运。虽然船完好无损,但几乎有一半的乘客被运送到了异次元!
您的任务是预测在泰坦尼克号飞船与时空异常相撞期间是否有乘客被运送到另一个维度。为了帮助你做出这些预测,你会得到一组从船上受损的计算机系统中恢复的个人记录。
以下是数据集的一些信息:
PassengerId- 每位乘客的唯一ID。每个Id采用gggg_pp的形式,其中gggg表示乘客旅行的组,pp是他们在组中的编号。群体中的人通常是家庭成员,但并非总是如此。HomePlanet- 乘客离开的星球,通常是他们的永久居住星球。CryoSleep- 指示乘客是否选择在航行期间进入假死状态。处于低温睡眠状态的乘客被限制在他们的客舱内。Cabin- 乘客入住的客舱编号。采用deck/num/side形式,其中side可以是P代表左舷或S代表右舷。Destination- 乘客将要去的星球。Age- 乘客的年龄。VIP- 乘客在航程中是否支付了特殊的 VIP 服务费用。RoomService、FoodCourt、ShoppingMall、Spa、VRDeck- 乘客在泰坦尼克号宇宙飞船的众多豪华设施中所支付的金额。Name- 乘客的名字和姓氏。Transported- 乘客是否被运送到另一个维度。这是目标,您要预测的列。
数据导入
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import matplotlib
%matplotlib inline
train_data = pd.read_csv(r'.\spaceship-titanic\train.csv')
test_data = pd.read_csv(r'.\spaceship-titanic\test.csv')
submission = pd.read_csv(r'.\spaceship-titanic\sample_submission.csv')
train_data.head()
| PassengerId | HomePlanet | CryoSleep | Cabin | Destination | Age | VIP | RoomService | FoodCourt | ShoppingMall | Spa | VRDeck | Name | Transported | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | 0001_01 | Europa | False | B/0/P | TRAPPIST-1e | 39.0 | False | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | Maham Ofracculy | False |
| 1 | 0002_01 | Earth | False | F/0/S | TRAPPIST-1e | 24.0 | False | 109.0 | 9.0 | 25.0 | 549.0 | 44.0 | Juanna Vines | True |
| 2 | 0003_01 | Europa | False | A/0/S | TRAPPIST-1e | 58.0 | True | 43.0 | 3576.0 | 0.0 | 6715.0 | 49.0 | Altark Susent | False |
| 3 | 0003_02 | Europa | False | A/0/S | TRAPPIST-1e | 33.0 | False | 0.0 | 1283.0 | 371.0 | 3329.0 | 193.0 | Solam Susent | False |
| 4 | 0004_01 | Earth | False | F/1/S | TRAPPIST-1e | 16.0 | False | 303.0 | 70.0 | 151.0 | 565.0 | 2.0 | Willy Santantines | True |
train_data.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8693 entries, 0 to 8692
Data columns (total 14 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 PassengerId 8693 non-null object
1 HomePlanet 8492 non-null object
2 CryoSleep 8476 non-null object
3 Cabin 8494 non-null object
4 Destination 8511 non-null object
5 Age 8514 non-null float64
6 VIP 8490 non-null object
7 RoomService 8512 non-null float64
8 FoodCourt 8510 non-null float64
9 ShoppingMall 8485 non-null float64
10 Spa 8510 non-null float64
11 VRDeck 8505 non-null float64
12 Name 8493 non-null ob

在2912年,一艘名为泰坦尼克号的宇宙飞船在星际旅行中遭遇时空异常,导致一半乘客失踪。通过分析恢复的数据,包括乘客的个人信息、旅行状态等,利用机器学习进行预测,初始模型预测正确率已从50%提升到70%以上。未来工作包括深入研究各消费数据的影响、优化缺失值填充和分类数据探索。
最低0.47元/天 解锁文章
7641

被折叠的 条评论
为什么被折叠?



