监督学习-----分类学习-----决策树

 

逻辑斯蒂回归(logisticRegression)和支持向量机(support vactor model)都在某种程度上要求被学习的特征和目标之间遵照线性假设。然而,在许多现实场景下,这种假设是不存在的。

比如,如果要借由一个人的年龄来预测患流感的死亡率。如果采用线性模型的假设,那么只有两种情况:年龄越大死亡率越高;或者年龄越小死亡率越高。然而,根据常识判断,青壮年因为更加健全的免疫系统,相较于儿童和老年人不容易因患流感而死亡。因此,年龄与因流感而死亡之间不存在线性关系。如果要用数学表达式描述这种非线性关系,使用分段函数最为合理,而在机器学习模型之中,决策树就是描述这种非线性关系的不二之选。

再比如,信用卡申请的审核涉及申请人的多项特征,也是典型的决策树模型。

使用多种不同特征组合搭建多层决策树的情况,模型在学习的时候就需要考虑特证节点的选择顺序。常用的度量方式包括信息熵(Information Gain)和基尼不纯性(Gini Impurity)

泰坦尼克号沉船事故:1912年,当时隶属于英国的世界级豪华客轮泰坦尼克号,因在处女航行中不幸撞上北大西洋冰山而沉没。这场事故使得1500多名乘客罹难。后来,这场震惊世界的惨剧被详细的调查,而且遇难乘客的信息也逐渐被披露。在当时的救援条件下,无法在短时间内确认每位乘客生还的可能性。而今,许多科学家试图通过计算机模拟和分析找出潜藏在数据背后的生还逻辑。下面,尝试揭开这尘封100多年的数据面纱。

'http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt'-------------》数据集

(1)泰坦尼克号数据查验

#导入pandas用于数据分析

import pandas as pd

#利用pandas的read_csv模块直接从互联网上收集泰坦尼克号乘客数据。

titanic=pd.read_csv('http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt')

#观察前几行数据,可以发现,数据种类各异,数值型、类别型,甚至还有缺失数据。

titanic.head()

 

#使用pandas,数据都转入pandas独有的dataframe格式(二维数据表格),直接使用info(),查看数据的统计特性。

 

 

比起之前的数据样例。这次的数据年代久远,难免会有信息丢失和不完整;甚至,许多数据特征还没有量化。因此,在使用决策树模型进行训练学习之前,需要对数据做一些预处理和分析工作

(2)使用决策树模型预测泰坦尼克号乘客的生还情况。

#机器学习还有一个不太被初学者重视并且耗时,但是十分重要的一环-----特征的选择,这个需要基于一些背景知识。根据我们对这场事故的了解,sex,age,pclass这些特征都很有可能是决定幸免与否的关键因素。

import pandas as pd

titanic=pd.read_csv('C:/Users/Administrator/Desktop/titanic.csv')

titanic.head()

titanic.info()

X=titanic[['pclass','age','sex']]

y=titanic['survived']

X.info()

#借由上面的几个输出,我们设计如下的几个数据处理任务

#1)age这个数据列,只有633个,需要补完

#2)sex与pclass两个数据列的值都是类别型的,需要转化为数值特征,用0/1代替

#3)首先我们补充age里的内容,使用平均数或者是中位数都是对模型偏离造成最小影响的策略。

X['age'.fillna(X['age'].mean(),inplace=True)]

#对补充的数据重新进行探查

X.info()

#由此得知,age特征得到了补完。

#数据分割

from sklearn.model_selection import train_test_split

X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.25,random_state=33)

#使用scikit-learn.feature_eatraction中的特征转换器

from sklearn.feature_extraction import DictVectorizer

vec=DictVectorizer(sparse=False)

#转换特征后,我们发现凡是类别型的特征都单独剥离出来,独成一列特征,数字型的则保持不变。

X_train=vec.fit_transform(X_train,to_dict(orient='record'))

print(vec.feature_names_)

#同样需要对测试数据的特征进行转换

X_test=vec.transform(X_test,to_dict(orient='record'))

#从sklearn.tree中导入决策树分类器

from sklearn.tree import DecisionTreeClassifier

#使用默认配置初始化决策树分类器

dtc=DicisionTreeClassifier()

#使用分割到的训练数据进行模型学习

dtc.fit(X_train,y_train)

#用训练好的决策树模型对测试特征数据进行预测

y_predict=dtc.predicr(X_test)

(3)性能测评-----决策树模型对泰坦尼克号乘客是否生还的预测性能

#从sklearn.metrics中导入classification_report

from sklearn.metrics import classification_report

#输出预测准确性

print('dtc.score(X_test,y_test)')

#输出更加详细的分类性能

print(classification_report(y_predict,y_test,target_names=['died','surciced']))

决策树模型总体上在测试集上的预测准确性约为78.12%。详细的性能指标进一步说明,该模型在预测遇难者方面性能较好,却需要在识别生还者的精确率方面下工夫。

相比于其他学习模型,决策树在模型描述上有着巨大的优势,决策树的推断逻辑非常直观,具有清晰的可解释性,也方便了模型的可视化。这些特性同时也保证在使用决策树模型时,是无需考虑对数据的量化甚至标准化的。并且,与前面的K邻近模型不同,决策树仍然是属于有参数模型,需要花费更多的时间在训练数据上。

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值