从泰坦尼克来做数据分类预测

最新推荐文章于 2024-06-03 16:23:08 发布

vs412237401

最新推荐文章于 2024-06-03 16:23:08 发布

阅读量3.7k

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/vs412237401/article/details/50788684

版权

泰坦尼克空难简介：1912年4月15日，载着1316号乘客和891名船员的豪华巨轮“泰坦尼克号”与冰山相撞而沉没，这场海难被认为是20世纪人间十大灾难之一。1985年，“泰坦尼克号”的沉船遗骸在北大西洋两英里半的海底被发现。美国探险家洛维特（比尔·帕克斯顿饰演）亲自潜入海底，在船舱的墙壁上看见了一幅画，洛维持的发现立刻引起了一位老妇人（格劳瑞亚·斯图尔特饰演）的注意。已经是101岁高龄的露丝称她就是画中的少女。在潜水舱里，露丝开始叙述当年在船上发生的故事。年轻的贵族少女露丝（凯特·温丝莱特饰演）与穷画家杰克（莱昂纳多·迪卡普里奥饰演）不顾世俗的偏见坠入爱河，然而就在1912年4月14日，一个风平浪静的夜晚，泰坦尼克号撞上了冰山，“永不沉没的”泰坦尼克号面临沉船的命运，罗丝和杰克刚萌芽的爱情也将经历生死的考验，最终不得不永世相隔。老态龙钟的罗丝讲完这段哀恸天地的爱情之后，把那串价值连城的项链“海洋之心”沉入海底，让它陪着杰克和这段爱情长眠海底。

这是一部我看过很多次的电影，虽然时间很长，但的确是非常耐看。Kaggle上有相关的数据，请见网址 https://www.kaggle.com/c/titanic，他提供的训练数据主要有以下特征，乘客ID'PassengerId',是否获救 'Survived',乘客分类 'Pclass',姓名 'Name',性别 'Sex',年龄 'Age', 有多少兄弟姐妹/配偶同船，'SibSp', 有多少父母/子女同船，'Parch', 票号，'Ticket', 票价，'Fare', 客舱号，'Cabin', 'Embarked'出发港，根据这些训练数据训练模型，来判断测试数据中的乘客是否获救了，测试数据和训练数据相比就是只少了是否获救 'Survived'这一列。

解决问题的思路：先处理训练数据，如处理缺失数据，对乘客分类，性别，发出港口做LableEncoder，然后选择合适的分类模型做训练，再根据训练的模型对测试数据做获救预测，然后提交预测结果获得预测得分。

下面贴部分代码及运行结果截图

def get_process_train_data():
    train_data,target_data = get_raw_data()
    #用来对此列缺失数据做填充
    embarkeds = train_data.groupby('Embarked')['Embarked'].count()
    logging.debug(embarkeds)
    # 对Pclass，Sex做处理
    train_data_value = train_data.values
    pclass_le = LabelEncoder()
    train_data_value[:, 0] = pclass_le

最低0.47元/天解锁文章

vs412237401

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
从泰坦尼克来做数据分类预测

泰坦尼克空难简介：1912年4月15日，载着1316号乘客和891名船员的豪华巨轮“泰坦尼克号”与冰山相撞而沉没，这场海难被认为是20世纪人间十大灾难之一。1985年，“泰坦尼克号”的沉船遗骸在北大西洋两英里半的海底被发现。美国探险家洛维特（比尔·帕克斯顿饰演）亲自潜入海底，在船舱的墙壁上看见了一幅画，洛维持的发现立刻引起了一位老妇人（格劳瑞亚·斯图尔特饰演）的注意。已经是101岁高龄的露丝称
复制链接

扫一扫