kaggle：预测泰坦尼克号幸存者（决策树算法，网格搜索模型参数调优）

最新推荐文章于 2024-03-11 17:20:40 发布

原创

最新推荐文章于 2024-03-11 17:20:40 发布 · 3.5k 阅读

12 ·

CC 4.0 BY-SA版权

本文介绍了使用决策树算法在kaggle泰坦尼克号数据集上进行生存预测的实践。通过网格搜索进行模型参数调优，提升预测准确性，深入探讨特征选择和模型优化过程。

%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

def read_dataset(fname):
    # 指定第一列作为行索引
    data = pd.read_csv(fname, index_col=0) #列索引为csv文件第一行
    # 丢弃无用的数据
    data.drop(['Name', 'Ticket', 'Cabin'], axis=1, inplace=True)#inplace=False，默认该删除操作不改变原数据，而是返回一个执行删除操作后的新dataframe；
                                                                #inplace=True，则会直接在原数据上进行删除操作，删除后就回不来了。
    # 处理性别数据
    data['Sex'] = (data['Sex'] == 'male').astype('int')
    # 处理登船港口数据
    labels = data['Embarked'].unique().tolist() #去重 https://blog.csdn.net/starter_____/article/details/79184196
    data['Embarked'] = data['Embarked'].apply(lambda n: labels.index(n))
    # 处理缺失数据
    data = data.fillna(0) #fillna()会填充nan数据，返回填充后的结果。如果希望在原DataFrame中修改，则把inplace设置为True
    return data

train = read_dataset('datasets/titanic/train.csv')

train.head(10)

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }