Kaggle比赛（一）Titanic: Machine Learning from Disaster

最新推荐文章于 2022-04-11 22:04:36 发布

TimDyh

最新推荐文章于 2022-04-11 22:04:36 发布

阅读量246

点赞数

分类专栏： Kaggle 文章标签： Kaggle 机器学习

本文链接：https://blog.csdn.net/adamding1999/article/details/99824632

版权

本文记录了作者初次参与Kaggle的泰坦尼克号生存预测比赛的经历，通过提取乘客的姓名称谓、性别、家庭大小等特征，使用随机森林、极端随机树和梯度提升树等模型进行训练，并通过VotingClassifier建立最终模型，最终在Leaderboard上取得了0.79904的高分，排名前13%。

摘要由CSDN通过智能技术生成

泰坦尼克号幸存预测是本小白接触的第一个Kaggle入门比赛，主要参考了以下两篇教程：

本模型在Leaderboard上的最高得分为0.79904，排名前13%。

由于这个比赛做得比较早了，当时很多分析的细节都忘了，而且由于是第一次做，整体还是非常简陋的。今天心血来潮，就当做个简单的记录（流水账）。

导入相关包：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import re
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.ensemble import ExtraTreesClassifier, RandomForestClassifier, GradientBoostingClassifier, VotingClassifier

读取训练、测试集，合并在一起处理：

train_raw = pd.read_csv('datasets/train.csv')
test_raw = pd.read_csv('datasets/test.csv')
train_test = train_raw.append(test_raw, ignore_index=True, sort=False)

姓名中的称谓可以在一定程度上体现出人的性别、年龄、身份、社会地位等，因而是一个不可忽略的重要特征。我们首先用正则表达式将Name字段中的称谓信息提取出来，然后做归类：

Mr、Don代表男性
Miss、Ms、Mlle代表未婚女子
Mrs、Mme、Lady、Dona代表已婚女士
Countess、Jonkheer均为贵族身份
Capt、Col、Dr、Major、Sir这些少数称谓归为其他一类

train_test['Title'] = train_test['Name'].apply(lambda x: re.search('(\w+)\.', x).group(1))
train_test['Title'].replace(['Don'], 'Mr', inplace=True)
train_test['Title'].replace(['Mlle','Ms'], 'Miss', inplace=True)
train_test['Title'].replace(['Mme', 'Lady', 'Dona'], 'Mrs', inplace=True)
train_test['Title'].replace(['Countess', 'Jonkhe