sklearn集合算法预测泰坦尼克号幸存者

本文通过使用sklearn库的随机森林、自助聚合算法、Boosting正向激励算法和Extra Trees算法,对泰坦尼克号乘客的生存情况进行预测。研究发现,Boosting正向激励算法在该问题上的性能表现最佳且最稳定,其次为参数优化后的Extra Trees算法。通过对不同模型的参数调整,如随机森林的树数量,进一步提升了预测的准确性。
摘要由CSDN通过智能技术生成

原文:
http://ihoge.cn/2018/sklearn-ensemble.html

随机森林分类预测泰坦尼尼克号幸存者

import pandas as pd
import numpy as np

def read_dataset(fname):
    data = pd.read_csv(fname, index_col=0)
    data.drop(['Name', 'Ticket', 'Cabin'], axis=1, inplace=True)
    lables = data['Sex'].unique().tolist()
    data['Sex'] = [*map(lambda x: lables.index(x) , data['Sex'])]
    lables = data['Embarked'].unique().tolist()
    data['Embarked'] = data['Embarked'].apply(lambda n: lables.index(n))
    data = data.fillna(0)
    return data
train = read_dataset('code/datasets/titanic/train.csv')

from sklearn.model_selection import train_test_split

y = train['Survived'].values
X = train.drop(['Survived'], axis=1).values

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
print("X_train_shape:", X_train.shape, " y_train_shape:", y_train.shape)
print("X_test_shape:", X_test.shape,"  y_test_shape:", y_test.shape)
X_train_shape: (712, 7)  y_train_sh
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值