Kaggle:Titanic预测存活(1)

本文针对Kaggle上面的Titanic问题进行了入门学习,搭建了一个简单的xgboost基础模型,达到了75%的精度。

预处理

Titanic的数据中共有12列属性,包括passengerId:乘客ID,Survived:存活情况,Pclass:船票级别,Name:乘客姓名, Sex:性别, Age:年龄, SibSp:船上的兄弟姐妹以及配偶的人数, Parch:船上的父母以及子女的人数, Ticket:船票编号, Fare:工资, Cabin:所在船舱, Embarked:登船的港口。xgboost的输入需要是数值型数据,所以这里需要将非数值类型转换为数值类型,另外xgboost其实可以处理缺失数据,本不必要对缺失数据做处理。每个属性的预处理代码如下:

def pre_process_passengerId(df):
    return df.drop(['PassengerId'], axis=1)

def pre_process_pclass(df):
    return df; 

# 预处理用户名字,暂时认为名字和是否存活没有关系,删除该列
def pre_process_name(df):
    return df.drop(['Name'], axis=1);

#预处理性别,改为01格式
def pre_process_sex(df):
    df["Sex1"] = 0 
    df.Sex1[df.Sex=='female'] = 1;
    return df.drop(['Sex'], axis=1);

#使用平均数来填充age中缺失的值
def pre_process_age(df):
    df.loc[df.Age.isnull(), 'Age'] = 29.69
    return df

def pre_process_sibesp(df):
    return df

def pre_process_parch(df):
    return df

#Ticket暂时认为和是否存活无关,删除该列
def pre_process_ticket(df):
    return df.drop(['Ticket'], axis=1);

#工资使用众数填充缺失值
def pre_process_fare(df):
    df.Fare.fillna(df.Fare.mode()[0], inplace=True)
    return df;

#暂时认为cabin和是否存活无关,删除该列
def pre_process_cabin(df):
    return df.drop(["Cabin"], axis=1);

#将embark的字符串格式转换成0,1,2格式
def pre_process_embark(df):
    df.Embarked.fillna(df.Embarked.mode()[0], inplace=True)
    df["Embarked1"] = 0
    df.Embarked1[df.Embarked=='S'] = 0;
    df.Embarked1[df.Embarked=='C'] = 1;
    df.Embarked1[df.Embarked=='Q'] = 2;
    return df.drop(["Embarked"], axis=1);
Xgboost模型
def xgboostClassify(X_train, y_train, X_test, y_test):
    model = xgb.XGBClassifier(max_depth=10, sub_sample=0.1, colsample_btree=0.1, learning_rate=0.4, n_estimators=20);
    model.fit(X_train, y_train)
    return model
主流程
train_data = pd.read_csv('./data/train.csv')
test_data = pd.read_csv('./data/test.csv')
test_data["Survived"] = 0;
combined_data = train_data.append(test_data);

combined_data=pre_process_passengerId(combined_data);
combined_data=pre_process_pclass(combined_data);
combined_data=pre_process_name(combined_data);
combined_data = pre_process_sex(combined_data);
combined_data = pre_process_age(combined_data);
combined_data = pre_process_sibesp(combined_data);
combined_data = pre_process_parch(combined_data);
combined_data = pre_process_ticket(combined_data);
combined_data = pre_process_fare(combined_data);
combined_data = pre_process_cabin(combined_data);
combined_data = pre_process_embark(combined_data);
print combined_data.info()

train_data = combined_data[:891];
test_data = combined_data[891:];

X_train = train_data.drop(['Survived'],axis=1)
Y_train = train_data['Survived']
model = xgboostClassify(X_train, Y_train, None, None)

X_output = test_data.drop(['Survived'], axis=1)
#输出预测的submission.csv文件
output(model, X_output) 
预测结果

提交submission.csv到Kagge上,达到了75%的精度。

后续优化

该代码只是简单的跑通了流程,后续还有很多的优化工作要做。

  • xgboost调参,使用交叉验证寻找最优参数。
  • 探索使用上面没用到的特征,及已用到特征的优化
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
根据引用的分析,在进行Kaggle Titanic生存预测时,可以将乘客的年龄、性别和船票等级作为重点数据进行分析。乘客的家属数量可能对生存率有影响,但需要与其他信息一起探讨,例如乘客是否是船上所有家属中最年轻的一个。船票编号、价格和客舱号可以视为一类信息,与船票等级可能有关联。而最后一个登船港口对生存率的影响暂时被假设为无关,因为仅凭几百条数据很难确定其影响。 引用和可以看到,登船地点对生存率有一定的影响。在S港口登船的人数最多,C港口次之,Q港口最少。在S港口登船的乘客生存率较低,而在C港口登船的乘客生存率较高。另外,在不同登船港口的女性乘客占比也不同,C港口的女性乘客数量最多,Q港口次之,S港口最少。由于前面已经了解到女性的生存率明显高于男性,因此性别因素可能是导致生存率差异的原因之一。 综上所述,在Kaggle Titanic生存预测中,可以将乘客的年龄、性别、船票等级和登船地点作为重要的特征进行分析。其中,女性的生存率较高,C港口登船的乘客生存率较高,而S港口登船的乘客生存率较低。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [kaggle|泰坦尼克号生存预测](https://blog.csdn.net/weixin_45435206/article/details/104422277)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* *3* [【机器学习kaggle赛事】泰坦尼克号生存预测](https://blog.csdn.net/m0_51933492/article/details/126895547)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值