Kaggle Spaceship Titanic打卡活动
尝试了一个coggle科学的打卡活动(Coggle 30 Days of ML(22年10月)),记录一下学习过程!
Day 1 比赛的报名与尝试
登录kaggle之后进行注册(注册时需要连上外网,后续登录不需要),然后进入Spaceship Titanic | Kaggle赛题界面,进行报名,报名之后的界面如下图所示。
赛题介绍
欢迎来到 2912 年,您需要数据科学技能来解决宇宙之谜。我们收到了四光年外的信号,情况看起来不太妙。宇宙飞船泰坦尼克号是一个月前发射的星际客轮。船上有近 13,000 名乘客,这艘船开始了处女航,将太阳系的移民运送到围绕附近恒星运行的三颗新可居住的系外行星。
在绕过半人马座阿尔法星前往它的第一个目的地——炎热的巨蟹座 55 E 时,粗心的宇宙飞船泰坦尼克号与隐藏在尘埃云中的时空异常相撞。可悲的是,它遭遇了与 1000 年前同名的命运相似的命运。虽然船完好无损,但几乎有一半的乘客被运送到了异次元!
为了帮助救援人员和找回丢失的乘客,您面临的挑战是使用从飞船损坏的计算机系统中恢复的记录来预测哪些乘客被异常运送。
数据说明
在本次比赛中,您的任务是预测在泰坦尼克号飞船与时空异常相撞期间是否有乘客被运送到另一个维度。为了帮助你做出这些预测,你会得到一组从船上受损的计算机系统中恢复的个人记录。
文件说明:
- train.csv - 大约三分之二 (~8700) 乘客的个人记录,用作训练数据。
- test.csv - 剩余三分之一 (~4300) 乘客的个人记录,用作测试数据。您的任务是为该集合中的乘客预测已运输的值。
- sample_submission.csv - 格式正确的提交文件。
字段说明:
- PassengerId - 每位乘客的唯一 ID。每个 Id 采用 gggg_pp 的形式,其中 gggg 表示乘客旅行的组,pp 是他们在组中的编号。群体中的人通常是家庭成员,但并非总是如此。
- HomePlanet - 乘客离开的星球,通常是他们的永久居住星球。
- CryoSleep - 指示乘客是否选择在航行期间进入假死状态。处于低温睡眠状态的乘客被限制在他们的客舱内。
- Cabin - 乘客入住的客舱编号。采用deck/num/side 形式,其中side 可以是P 代表左舷或S 代表右舷。
- Destination - 乘客将要去的星球。
- Age - 乘客的年龄。
- VIP - 乘客在航程中是否支付了特殊的 VIP 服务费用。
- RoomService、FoodCourt、ShoppingMall、Spa、VRDeck - 乘客在泰坦尼克号宇宙飞船的众多豪华设施中所支付的金额。
- Name - 乘客的名字和姓氏。
- Transported - 乘客是否被运送到另一个维度。这是目标,您要预测的列。
评估方式
评估方式:提交的内容是根据其分类准确度、预测标签正确的百分比来评估的。
提交方式
比赛提交格式为csv文件,格式如下:
PassengerId,Transported
0013_01,False
0018_01,False
0019_01,False
0021_01,False
etc.
利用pandas读取数据
import pandas as pd
trian = pd.read_csv('./data/train.csv')
test = pd.read_csv('./data/test.csv')
sub = pd.read_csv('./data/sample_submission.csv')
训练集的的大概情况如下: