前言
本篇结合周志华老师的《机器学习》一书第4章习题,用python实践其中几个题目,为大家提供学习及实践中的参考。
题目
我们尝试将上述4道题结合起来,从简单到复杂来进行实践。这里提到的数据集表4.3,已经整理好,放到了本人github项目空间 https://github.com/aaronlou/DataScienceProject/blob/master/Data/watermelon3_0.csv,大家可以直接下载使用。
数据预处理
对于基于树的模型来说,虽然省去了对于连续型变量进行标准化的工作,但类别型变量还是需要进行独热编码的(one-hot-encoding)。
使用sklearn建决策树
详细的代码已经放到github上: https://github.com/aaronlou/DataScienceProject/tree/master/DecisionTree
手撕决策树
全程手写决策树的过程已更新到本人githu