分类、回归问题都是监督学习,本质都是对输入做出预测,都要建立映射关系。分类问题输出的是物体所属的类别(瓜是好瓜吗),回归问题输出的是数值(瓜会卖到多少钱)。聚类是无监督学习
一.分类问题
分类问题输出的是物体所属的类别,即输出结果是:“好瓜/坏瓜”、“晴天/阴天/雨天”...,分类问题输出的值是定性的,目的是为了寻找决策边界。单一的分类方法主要包括:决策树、贝叶斯、人工神经网络、K-近邻、支持向量机和基于关联规则的分类等;另还有组合单一方法的集成学习算法,如Bagging、Boosting等。
1.决策树
通过对历史数据进行测算,实现对新数据进行分类和预测。例如,我们要对“这是好瓜吗?”进行决策,就要进行一系列的判断或”子决策“:先看“是什么颜色”,再“根蒂是什么形态”,再判断“敲起来是什么声音”,最后得出决策:这是个好瓜/坏瓜。
一般的,一棵决策树包括一个根节点、若干个内部节点(根蒂、敲声、色泽)和若干个叶节点(好/坏瓜)。其中,叶节点对应决策结果,其他每个节点对应一个属性测试;每个节点包含的样本集合根据属性测试的结果被划分至子节点中;根节点包含样本全集,子节点样本集数量逐渐减少;根节点到每个叶结点的路径对应了一个判定测试序列。其基本流程遵循“分而治之”策略,其生成是一个递归过程。
关于决策树算法详细介绍可参考文章