kaggle:预测泰坦尼克号幸存者(决策树算法,网格搜索模型参数调优)

本文介绍了使用决策树算法在kaggle泰坦尼克号数据集上进行生存预测的实践。通过网格搜索进行模型参数调优,提升预测准确性,深入探讨特征选择和模型优化过程。
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
def read_dataset(fname):
    # 指定第一列作为行索引
    data = pd.read_csv(fname, index_col=0) #列索引为csv文件第一行
    # 丢弃无用的数据
    data.drop(['Name', 'Ticket', 'Cabin'], axis=1, inplace=True)#inplace=False,默认该删除操作不改变原数据,而是返回一个执行删除操作后的新dataframe;
                                                                #inplace=True,则会直接在原数据上进行删除操作,删除后就回不来了。
    # 处理性别数据
    data['Sex'] = (data['Sex'] == 'male').astype('int')
    # 处理登船港口数据
    labels = data['Embarked'].unique().tolist() #去重 https://blog.csdn.net/starter_____/article/details/79184196
    data['Embarked'] = data['Embarked'].apply(lambda n: labels.index(n))
    # 处理缺失数据
    data = data.fillna(0) #fillna()会填充nan数据,返回填充后的结果。如果希望在原DataFrame中修改,则把inplace设置为True
    return data

train = read_dataset('datasets/titanic/train.csv')
train.head(10)
.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }
Survived Pclass Sex Age SibSp Parch Fare Embarked
PassengerId
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值