泰坦尼克-决策树实现

最新推荐文章于 2025-04-20 17:23:37 发布

又决定放弃

最新推荐文章于 2025-04-20 17:23:37 发布

阅读量885

点赞数

分类专栏：算法 ML

本文链接：https://blog.csdn.net/qq_24884193/article/details/104093028

版权

算法同时被 2 个专栏收录

37 篇文章

订阅专栏

8 篇文章

订阅专栏

两个数据集, 你本地新建个 train.csv 和 test.csv，下面的链接的内容粘贴进去就行了：

train.csv:

https://raw.githubusercontent.com/cystanford/Titanic_Data/master/train.csv

test.csv:

https://raw.githubusercontent.com/cystanford/Titanic_Data/master/test.csv

至于代码，还是那些流程，跟着注释看就完全ok了

提醒一下：
源数据比如age字段有很多空的值(Nan), 数据清洗时我们就要先把它们给填充以下

#coding=UTF-8
import pandas as pd
from sklearn.feature_extraction import DictVectorizer
from sklearn.tree import DecisionTreeClassifier
import numpy as np
from sklearn.model_selection import cross_val_score
from sklearn.tree import export_graphviz


# 数据加载
train_data = pd.read_csv('./train.csv')
test_data = pd.read_csv('./test.csv')

#打印出来看看
print(train_data.info())
print(train_data.describe())
print(train_data.describe(include=['O']))
print(train_data.head())
print(train_data.tail())

# 数据清洗
# 用平均年龄来填充年龄中的Nan值
train_data['Age'].fillna(train_data['Age'].mean(), inplace=True)
test_data['Age'].fillna(test_data['Age'].mean(),inplace=True)
# 使用票价的均值填充票价中的Nan值
train_data['Fare'].fillna(train_data['Fare'].mean(), inplace=True)
test_data['Fare'].fillna(test_data['Fare'].mean(),inplace=True)
# 使用登录最多的港口来填充登录港口的nan值
# print(train_data['Embarked'].value_counts())
train_data['Embarked'].fillna('S', inplace=True)
test_data['Embarked'].fillna('S',inplace=True)

# 特则工程: 特征选择
features = ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked']
train_features = train_data[features]
train_labels = train_data['Survived']
test_features = test_data[features]
#特征工程: 字典特征抽取
transfer = DictVectorizer(sparse=False) 
train_features = transfer.fit_transform(train_features.to_dict(orient='record'))

# 构造ID3决策树估计器
clf = DecisionTreeClassifier(criterion='entropy',max_depth=9)
# 决策树训练
clf.fit(train_features, train_labels)

# # 模型预测 & 评估
# test_features=transfer.transform(test_features.to_dict(orient='record'))
# # 决策树预测
# pred_labels = clf.predict(test_features)

# 得到决策树准确率
acc_decision_tree = round(clf.score(train_features, train_labels), 6)
print(u'score准确率为 %.4lf' % acc_decision_tree)

# 使用K折交叉验证 统计决策树准确率
print(u'cross_val_score准确率为 %.4lf' % np.mean(cross_val_score(clf, train_features, train_labels, cv=10)))

#可视化决策树
export_graphviz(clf, out_file="titanic_tree.dot" , feature_names=transfer.get_feature_names())