实例示范( 泰坦尼克沉船数据分析之二)

640?wx_fmt=png

欢迎关注公众号 数据分析指北

数据分析指北 - 实例示范( 泰坦尼克沉船数据分析之二)

决策树了解下?也许它应该是你熟练掌握的第一个机器学习算法。


前期回顾:
泰坦尼克沉船数据分析之一)

其余相关:
基础( KNIME 基础模块之一 )
附录二 KNIME 使用基本介绍

640?wx_fmt=jpeg

Engraving by Willy Stöwer: Der Untergang der Titanic

微信公众号:数据分析指北

  • 机器学习模型

  • 决策树

    • KNIME 中的决策树模块

好,我们已经对泰坦尼克沉船数据有了一个基本的了解,下一步我们将使用机器学习中的一个简单算法建立模型。看看能否通过模型预测一个人是否最终存活下来,并与事实进行对比。

机器学习模型

决策树

Decision Tree,决策树是一种机器学习中很常见的算法。它的目的是从特征中学习得到一个树形规则,并根据最终规则来预测目标变量的值。

在维基百科决策树的词条中有这样一个例子,小王是一个高尔夫球场的老板,他被雇多少临时工这件事搞的很心烦。如果来高尔夫球场的客户多,他就会需要更多的员工来服务客户;但是如果他雇佣了很多的员工,那天来的客户却不够多,那么他又得给这些人付工资。他观察到来高尔夫球场的客户和天气关系很大,于是就记录了天气状况与球场客户的数量,并找了专业人员构建了一个决策树模型,来帮助他决策今天要不要雇佣更多的临时工。最终他得到的模型是这样的:

640?wx_fmt=png

高尔夫球场决策树模型

在这个模型的指导下,小王就可以在很多客人要来时,多雇佣一些临时工,反之亦然。

决策树模型有一些明显的优点和缺点,优点包括:
- 可解释性。可以看出上面的模型非常容易观察和解释,这是一个很大的优势,现今流行的深度学习模型在可解释性上就要比一些传统的模型差很多。
- 训练需要的数据少,等等。
缺点有:
- 模型很可能会过拟合,导致泛化性能差。当然现今有一些剪枝算法已经可以在一定程度上解决这个问题了。
- 模型可能是不稳定的,原始数据稍微有变化就可能导致产生一棵完全不同的树模型。一般通过决策树的集成来缓解这个问题。

拟合、过拟合、以及泛化性能这些概念,是机器学习中重要而且基础的概念。在这里简单举例说明,假设我们有部分数据,想通过这些数据构建一个函数(模型),数据在下图中以橘黄色点表示,那么你可能会构造出多种多样的模型,比如,构造出左边的一次函数 

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值