ML-决策树-泰坦尼克号

最新推荐文章于 2024-07-25 16:24:11 发布

第二人生2

最新推荐文章于 2024-07-25 16:24:11 发布

阅读量163

点赞数

分类专栏：数据分析/数据挖掘

本文链接：https://blog.csdn.net/qq_22017379/article/details/108968574

版权

泰坦尼克号决策树特征选择交叉验证生存预测

关键词由CSDN通过智能技术生成

数据分析/数据挖掘专栏收录该内容

6 篇文章 0 订阅

订阅专栏

ML-决策树-泰坦尼克号

流程

1.数据加载
2.数据特征
3.数据预处理:均值填充，最大值填充
4.特征选择
5.构造ID3树
6.决策树训练
7.决策树预测
8.准确率输出

代码

import pandas as pd
from sklearn.feature_extraction import DictVectorizer
from sklearn.tree import DecisionTreeClassifier

# 数据加载
train_data = pd.read_csv('C:\\Users\\YXJ\\Documents\\Tencent Files\\1064584707\\FileRecv\\Titanic_Data-master\\train.csv')
test_data = pd.read_csv('C:\\Users\\YXJ\\Documents\\Tencent Files\\1064584707\\FileRecv\\Titanic_Data-master\\train.csv')
# 数据探索
print(train_data.info()) #数据信息
print('-'*30)
print(train_data.describe()) #数据描述
print('-'*30)
print(train_data.describe(include=['O']))
print('-'*30)
print(train_data.head())#前五条数据
print('-'*30)
print(train_data.tail())#后五条数据
print('-'*30)
# 数据清洗
# 使用平均年龄来填充年龄中的 nan 值
train_data['Age'].fillna(train_data['Age'].mean(), inplace=True)
test_data['Age'].fillna(test_data['Age'].mean(),inplace=True)
# 使用票价的均值填充票价中的 nan 值
train_data['Fare'].fillna(train_data['Fare'].mean(), inplace=True)
test_data['Fare'].fillna(test_data['Fare'].mean(),inplace=True)

print(train_data['Embarked'].value_counts())

# 使用登录最多的港口来填充登录港口的 nan 值
train_data['Embarked'].fillna('S', inplace=True)
test_data['Embarked'].fillna('S',inplace=True)

# 特征选择
features = ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked']
train_features = train_data[features]
train_labels = train_data['Survived']
test_features = test_data[features]
#特征向量化
#将dict类型的list数据，转换成numpy array，具有属性vec.feature_names_，查看提取后的特征名。
#pclass和sex两列分类变量转换为了数值型变量（只有0和1），age列数值型保持不变
dvec=DictVectorizer(sparse=False) #sparse=False意思是不产生稀疏矩阵
train_features=dvec.fit_transform(train_features.to_dict(orient='record'))
#特征名字
print(dvec.feature_names_)

# 构造 ID3 决策树
clf = DecisionTreeClassifier(criterion='entropy')
# 决策树训练
clf.fit(train_features, train_labels)

test_features=dvec.transform(test_features.to_dict(orient='record'))
# 决策树预测
pred_labels = clf.predict(test_features)

# 得到决策树准确率
acc_decision_tree = round(clf.score(train_features, train_labels), 6)
print(u'score 准确率为 %.4lf' % acc_decision_tree)
#0.9820

##交叉验证

```python
import numpy as np
from sklearn.model_selection import cross_val_score
#使用K折交叉验证，统计决策树准确率
score=cross_val_score(clf,train_features,train_labels,cv=10)
print(score)
print(u'score 准确率为 %.4lf' % np.mean(score))
#score 准确率为 0.7801

项目总结

采用决策树方法，对泰坦尼克号乘客生存问题进行预测，准确率达0.9820，使用K折交叉验证后准确率为0.7801

第二人生2

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ML-决策树-泰坦尼克号

ML-决策树-泰坦尼克号流程代码项目总结流程1.数据加载2.数据特征3.数据预处理:均值填充，最大值填充4.特征选择5.构造ID3树6.决策树训练7.决策树预测8.准确率输出代码import pandas as pdfrom sklearn.feature_extraction import DictVectorizerfrom sklearn.tree import DecisionTreeClassifier# 数据加载train_data = pd.read_csv('
复制链接

扫一扫

专栏目录