机器学习入门实战——决策树算法实战Titanic数据集

关于决策树的理论知识可以查看:决策树

Titanic数据集概述

  RMS泰坦尼克号的沉没是历史上最臭名昭着的沉船之一。 1912年4月15日,在首航期间,泰坦尼克号撞上一座冰山后沉没,2224名乘客和机组人员中有1502人遇难。这一耸人听闻的悲剧震撼了国际社会,导致了更好的船舶安全条例。预测是否有乘客幸存下来的泰坦尼克号。

代码实战

首先,一如既往导入数据集,并查看一下部分数据

import pandas as pd

titanic = pd.read_csv('http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt')
titanic.head()

这里写图片描述
info可以查看一下数据集的基本信息,我们可以看到数据集中有部分缺失值

titanic.info()
> <class 'pandas.core.frame.DataFrame'>
> RangeIndex: 1313 entries, 0 to 1312
> Data columns (total 11 columns):
> row.names    1313 non-null int64
> pclass       1313 non-null object
> survived     1313 non-null int64
> name         1313 non-null object
> age          633 non-null float64
> embarked     821 non-null object
> home.dest    754 non-null object
> room         77 non-null object
> ticket       69 non-null object
> boat         347 non-null object
> sex          1313 non-null object
> dtypes: float64(1), int64(2), object(8)
> memory usage: 112.9+ KB

我们从中选取三个特征来对数据进行预测

X = titanic[['pclass','age','sex']]
y = titanic['survived']

X.info()
> <class 'pandas.core.frame.DataFrame'>
> RangeIndex: 1313 entries, 0 to 1312
> Data columns (total 3 columns):
> pclass    1313 non-null object
> age       633 non-null float64
> sex       1313 non-null object
> dtypes: float64(1), object(2)
> memory usage: 30.9+ KB

age具有缺失值,所以我们要对缺失值进行处理

X['age'].fillna(X['age'].mean(),inplace=True)
X.info()
> <class 'pandas.core.frame.DataFrame'>
> RangeIndex: 1313 entries, 0 to 1312
> Data columns (total 3 columns):
> pclass    1313 non-null object
> age       1313 non-null float64
> sex       1313 non-null object
> dtypes: float64(1), object(2)
> memory usage: 30.9+ KB

之后就是将数据集划分成训练集和测试集

from sklearn.cross_validation import train_test_split
X_train,X_test,Y_train,Y_test = train_test_split(X,y,test_size=0.25,random_state=33)

from sklearn.feature_extraction import DictVectorizer
vec = DictVectorizer(sparse=False)

X_train = vec.fit_transform(X_train.to_dict(orient='record'))
print(vec.feature_names_)
X_test = vec.fit_transform(X_test.to_dict(orient='record'))

[‘age’, ‘pclass=1st’, ‘pclass=2nd’, ‘pclass=3rd’, ‘sex=female’, ‘sex=male’]

导入决策树模型,并进行预测

from sklearn.tree import DecisionTreeClassifier

dtc = DecisionTreeClassifier()
dtc.fit(X_train,Y_train)
y_predict = dtc.predict(X_test)

最后,检查一下模型的效果

from sklearn.metrics import classification_report

print(dtc.score(X_test,Y_test))
print(classification_report(y_predict,Y_test,target_names=['died','survived']))

这里写图片描述
代码参考:《Python机器学习及实践:从零开始通往Kaggle竞赛之路》

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
好的,我会尽力为您解答。首先,决策树算法是一种基于树结构的分类算法,可以用于预测事物的分类或属性。而Titanic乘客存活率预测是一个经典的机器学习案例,我们可以通过优化代码来提高预测的准确性和效率。 以下是一些可以优化决策树算法实现Titanic乘客存活率预测的方: 1. 数据预处理:在进行决策树算法之前,我们需要对数据进行预处理,包括缺失值处理、数据类型转换、特征选择等。可以使用pandas库来进行数据的读取和处理。 2. 特征工程:特征工程是指对原始数据进行特征提取和转换的过程,可以提高模型的预测准确性。可以使用sklearn库中的特征选择工具和特征转换工具来进行特征工程。 3. 模型选择和调参:决策树算法有多种实现方式,如ID3、C4.5、CART等。可以通过交叉验证和网格搜索等方来选择最优的模型和参数。 4. 模型评估:在使用决策树算法进行预测时,需要对模型进行评估,包括准确率、精确率、召回率等指标。可以使用sklearn库中的评估工具来进行模型评估。 下面是一个决策树算法实现Titanic乘客存活率预测的示例代码: ```python import pandas as pd from sklearn.tree import DecisionTreeClassifier from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score # 读取数据 data = pd.read_csv('train.csv') # 数据预处理 data['Age'].fillna(data['Age'].mean(), inplace=True) data.drop(['Cabin', 'Name', 'Ticket'], axis=1, inplace=True) data['Embarked'].fillna('S', inplace=True) data['Sex'] = data['Sex'].map({'male': 0, 'female': 1}) data['Embarked'] = data['Embarked'].map({'S': 0, 'C': 1, 'Q': 2}) # 特征工程 X = data.drop(['Survived'], axis=1) y = data['Survived'] X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2) # 模型训练 clf = DecisionTreeClassifier() clf.fit(X_train, y_train) # 模型预测 y_pred = clf.predict(X_test) print('Accuracy:', accuracy_score(y_test, y_pred)) ``` 以上代码实现了数据预处理、特征工程、模型训练和模型预测等步骤,通过使用sklearn库中的决策树算法进行预测,并计算了预测的准确率。需要注意的是,这只是一个简单的示例代码,实际优化还需要考虑更多的因素,如特征选择、模型调参、集成学习等。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Quanfita

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值