从泰坦尼克来做数据分类预测

泰坦尼克空难简介:1912年4月15日,载着1316号乘客和891名船员的豪华巨轮“泰坦尼克号”与冰山相撞而沉没,这场海难被认为是20世纪人间十大灾难之一。1985年,“泰坦尼克号”的沉船遗骸在北大西洋两英里半的海底被发现。美国探险家洛维特(比尔·帕克斯顿 饰演)亲自潜入海底,在船舱的墙壁上看见了一幅画,洛维持的发现立刻引起了一位老妇人(格劳瑞亚·斯图尔特 饰演)的注意。已经是101岁高龄的露丝称她就是画中的少女。在潜水舱里,露丝开始叙述当年在船上发生的故事。年轻的贵族少女露丝(凯特·温丝莱特 饰演)与穷画家杰克(莱昂纳多·迪卡普里奥 饰演)不顾世俗的偏见坠入爱河,然而就在1912年4月14日,一个风平浪静的夜晚,泰坦尼克号撞上了冰山,“永不沉没的”泰坦尼克号面临沉船的命运,罗丝和杰克刚萌芽的爱情也将经历生死的考验,最终不得不永世相隔。老态龙钟的罗丝讲完这段哀恸天地的爱情之后,把那串价值连城的项链“海洋之心”沉入海底,让它陪着杰克和这段爱情长眠海底。

这是一部我看过很多次的电影,虽然时间很长,但的确是非常耐看。Kaggle上有相关的数据,请见网址 https://www.kaggle.com/c/titanic,他提供的训练数据主要有以下特征,乘客ID'PassengerId',是否获救 'Survived',乘客分类 'Pclass',姓名 'Name',性别 'Sex',年龄 'Age', 有多少兄弟姐妹/配偶同船,'SibSp', 有多少父母/子女同船,'Parch', 票号,'Ticket', 票价,'Fare', 客舱号,'Cabin', 'Embarked'出发港,根据这些训练数据训练模型,来判断测试数据中的乘客是否获救了,测试数据和训练数据相比就是只少了是否获救 'Survived'这一列。

解决问题的思路:先处理训练数据,如处理缺失数据,对乘客分类,性别,发出港口做LableEncoder,然后选择合适的分类模型做训练,再根据训练的模型对测试数据做获救预测,然后提交预测结果获得预测得分。

下面贴部分代码及运行结果截图

def get_process_train_data():
    train_data,target_data = get_raw_data()
    #用来对此列缺失数据做填充
    embarkeds = train_data.groupby('Embarked')['Embarked'].count()
    logging.debug(embarkeds)
    # 对Pclass,Sex做处理
    train_data_value = train_data.values
    pclass_le = LabelEncoder()
    train_data_value[:, 0] = pclass_le
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值