Kaggle比赛（一）Titanic: Machine Learning from Disaster

最新推荐文章于 2020-02-02 21:49:29 发布

「已注销」

最新推荐文章于 2020-02-02 21:49:29 发布

阅读量124

点赞数

分类专栏： Kaggle 文章标签： Kaggle 机器学习

本文链接：https://blog.csdn.net/qq_40770021/article/details/99770456

版权

泰坦尼克号幸存预测是本小白接触的第一个Kaggle入门比赛，主要参考了以下两篇教程：

本模型在Leaderboard上的最高得分为0.79904，排名前13%。

由于这个比赛做得比较早了，当时很多分析的细节都忘了，而且由于是第一次做，整体还是非常简陋的。今天心血来潮，就当做个简单的记录（流水账）。

导入相关包：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import re
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.ensemble import ExtraTreesClassifier, RandomForestClassifier, GradientBoostingClassifier, VotingClassifier

读取训练、测试集，合并在一起处理：

train_raw = pd.read_csv('datasets/train.csv')
test_raw = pd.read_csv('datasets/test.csv')
train_test = train_raw.append(test_raw, ignore_index=True, sort=False)

姓名中的称谓可以在一定程度上体现出人的性别、年龄、身份、社会地位等，因而是一个不可忽略的重要特征。我们首先用正则表达式将Name字段中的称谓信息提取出来，然后做归类：

Mr、Don代表男性
Miss、Ms、Mlle代表未婚女子
Mrs、Mme、Lady、Dona代表已婚女士
Countess、Jonkheer均为贵族身份
Capt、Col、Dr、Major、Sir这些少数称谓归为其他一类

train_test['Title'] = train_test['Name'].apply(lambda x: re.search('(\w+)\.', x).group(1))
train_test['Title'].replace(['Don'], 'Mr', inplace=True)
train_test['Title'].replace(['Mlle','Ms'], 'Miss', inplace=True)
train_test['Title'].replace(['Mme', 'Lady', 'Dona'], 'Mrs', inplace=True)
train_test['Title'].replace(['Countess', 'Jonkhe

最低0.47元/天解锁文章

「已注销」

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Kaggle比赛（一）Titanic: Machine Learning from Disaster

泰坦尼克号幸存预测是本小白接触的第一个Kaggle入门比赛，主要参考了以下两篇教程：https://www.cnblogs.com/star-zhao/p/9801196.html https://zhuanlan.zhihu.com/p/30538352本模型在Leaderboard上的最高得分为0.79904，排名前13%。由于这个比赛做得比较早了，当时很多分析的细节都忘了，而且由...
复制链接

扫一扫