Kaggle 入门练习 -- Titanic

Kaggle 入门练习 – Titanic


Kaggle 大数据比赛的入门练习,泰坦尼克遇难者预测


import pandas as pd

# 导入数据集
train = pd.read_csv('Titanic_dataset/train.csv')
test = pd.read_csv('Titanic_dataset/test.csv')

# 查看数据集的信息
# print(train.info())
# print(test.info())

# 选择特征
selected_features = ['Pclass', 'Sex', 'Age', 'Embarked', 'SibSp', 'Parch', 'Fare']
X_train = train[selected_features]
X_test = test[selected_features]
y_train = train['Survived']

# 查看具体特征的每个值的个数
# print(X_train['Embarked'].value_counts())
# print(X_test['Embarked'].value_counts())

# 填充缺失值,Embarked 用出现频率最高的特征值
X_train['Embarked'].fillna('S', inplace=True)
X_test['Embarked'].fillna('S', inplace=True)

# 填充缺失值,Age 和 Fare 用特征值的平均值
X_train['Age'].fillna(X_train['Age'].mean(), inplace=True)
X_test['Age'].fillna(X_test['Age'].mean(), inplace=True)
X_test['Fare'].fillna(X_test['Fare'].mean(), inplace=True)

# 查看数据集的信息
# X_train.info()

# 特征向量化
from sklearn.feature_extraction import DictVectorizer
dict_vec = DictVectorizer(sparse=False)
X_train = dict_vec.fit_transform(X_train.to_dict(orient='record'))
# 查看特征向量的特征名称
# dict_vec.feature_names_
X_test = dict_vec.transform(X_test.to_dict(orient='record'))

# 创建随机森林模型分类器
from sklearn.ensemble import RandomForestClassifier
rfc = RandomForestClassifier()

# 交叉验证的精度
from sklearn.model_selection import cross_val_score
print(cross_val_score(rfc, X_train, y_train, cv=5))

# 分类器拟合数据集
rfc.fit(X_train, y_train)
rfc_y_predict = rfc.predict(X_test)

# 保存对测试集的预测结果,以便提交
rfc_submission = pd.DataFrame({'PassengerId': test['PassengerId'], 'Survived': rfc_y_predict})
rfc_submission.to_csv('titanic_submission.csv', index=False)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值