一、分类问题
怎么检验生成的模型是否符合标准呢?
把30%的数据放到模型里面,假装看不到标签,因为模型会给它生成一系列的标签,这个模型的作用是当我已知这个模型的属性的时候,我可以用来预测它的标签是什么。也就是说,我只需要把属性值放到这个模型里面去,我就可以得到一些预测的标签,通过实际的标签和预测的标签进行对比,就可以知道这个模型是好是坏啦。
如果说预测的标签和实际的标签"完全一致",那么就说明这个模型非常好;如果差的很多,就说明这个模型不太好,需要改进,所以你还需要了解分类问题的评估指标,怎么样去评价一个分类模型的好坏?
具体这些指标达到什么标准才算好是根据业务指标来定的,有些场景下可能需要召回率高一点,有些场景下可能需要精确率高一点。
哎?你听说还有一个F1?F1也是一个评价指标,它是为了让一个评价指标里,既能体现查准率又能体现召回率而编的。
现在你知道怎么评价二分类模型的好坏了吧?
二、初始决策树
2.1 什么是决策树
决策树是用于解决分类问题的一种算法。我们有一些数据,如下:
我们想通过是否有房、婚姻状况以及年收入这些属性来判断ta是否会拖欠贷款,这个时候就可以简单的构建一个决策树。
2.2 决策树怎么用
当我们已经有一颗决策树后,我们希望用它来预测新加入的数据的目标值,我们现在新来了一条属性。
这条数据里面有它的属性值,我们需要预测它的目标列。这个时候怎么用决策树来预测呢?
2.3 构建一棵树
首先,我们需要知道怎么通过属性来构建节点。
我们已经知道怎么通过属性来构建节点了,那构建决策树时选择哪些属性呢?属性选择时用什么指标度量呢?
在选择属性时,我们一般用熵和基尼系数两种来进行度量。
那我们现在知道了怎么把属性变成一个节点,然后也知道了怎么选择更合适的节点来构建这个决策树,那么接下来就用前面学到的知道来构建一颗决策树。
2.4 构建一颗决策树的流程
有房者属性和年收入属性计算补充:
①有房者
②年收入
b站学习视频链接