Kaggle练习1——Titanic

最近有打算通过练习经典的Kaggle案例来锻炼自己的实战能力,今天就记录下自己做Titanic练习的全过程吧。

背景介绍:

python代码如下:

# -*- coding: utf-8 -*-
"""
Created on Fri Mar 10 12:00:46 2017

@author: zch
"""

import pandas as pd
from sklearn.feature_extraction import DictVectorizer
from sklearn.ensemble import RandomForestClassifier
from xgboost import XGBClassifier
from sklearn.cross_validation import cross_val_score

#读取训练数据集和测试数据集
train = pd.read_csv('E://Python/data/Titanic/train.csv')
test = pd.read_csv('E://Python/data/Titanic/test.csv')

selected_features = ['Pclass','Sex','Age','Embarked','SibSp','Parch','Fare']

X_train = train[selected_features]
X_test = test[selected_features]

y_train = train['Survived']

#填充Embarked缺失值
X_train['Embarked'].fillna('S',inplace=True)
X_test['Embarked'].fillna('S',inplace=True)
#填充Age缺失值
X_train['Age'].fillna(X_train['Age'].mean(),inplace=True)
X_test['Age'].fillna(X_test['Age'].mean(),inplace=True)
X_test['Fare'].fillna(X_test['Fare'].mean(),inplace=True)

#采用DictVectorizer对特征向量化
dict_vec = DictVectorizer(sparse=False)
X_train = dict_vec.fit_transform(X_train.to_dict(orient='record'))
print(dict_vec.feature_names_)

X_test = dict_vec.transform(X_test.to_dict(orient='record'))
rfc = RandomForestClassifier()

#使用默认配置初始化XGBClassifier
xgbc = XGBClassifier()

#使用5折交叉验证的方法在训练集上分别对rfc和xgbc进行性能评估,
#获得平均分类准确性的得分。
cross_val_score(rfc,X_train,y_train,cv=5).mean()
cross_val_score(xgbc,X_train,y_train,cv=5).mean()

#使用rfc进行预测操作
rfc.fit(X_train,y_train)
rfc_y_predict = rfc.predict(X_test)
rfc_submission  = pd.DataFrame({'PassengerId':test['PassengerId'],'Survived':rfc_y_predict})
#将预测结果存储在文件rfc_submission.csv
rfc_submission.to_csv('E:\\Python\\data\\Titanic\\rfc_sub.csv',index=False)

#使用xgbc进行预测操作
xgbc.fit(X_train,y_train)
xgbc_y_predict = xgbc.predict(X_test)
xgbc_submission  = pd.DataFrame({'PassengerId':test['PassengerId'],'Survived':xgbc_y_predict})

#将预测结果存储在文件xgbc_submission.csv
xgbc_submission.to_csv('E:\\Python\\data\\Titanic\\xgbc_sub.csv',index=False)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值