假设一个数据集:
- 样本:n个人
- 特征:m个特征(体重、身高等)
- 类别:男,女
- 预测值:健康系数(范围0~100)
分类的目的:把n个人分成男,女两堆(二分类)
分类
决策树
多次二分类。假设在某次分类中选用体重作为分类特征,50kg作为阈值,那么大于50kg的人进入左子树,其余人进入右子树。对于每棵子树的人,继续选用剩下特征进行分类直到满足停止条件,最后每个叶结点的类别由该结点下所有样本中的多数类决定。逻辑回归
发给每个人一个卡片,卡片上有m个数字,对应m个特征。每个人将特征值和对应的数字相乘再求和得到一个数值,这个值经过sigmoid函数过滤,大于0.5分类为男,否者为女。(这n个人的卡片数字都是一样的,他们在同一个逻辑回归模型下)
回归
线性回归
现在告诉每个人一个健康系数,作为回归要预测的值。同样发给每个人一张卡片,每个人将特征值和对应的数字相乘再求和得到的数值,作为对健康系数的预测值。(这n个人的卡片上数字都是一样的,他们在同一个线性回归模型下)回归树
同样告诉每个人一个健康系数。同决策树,先做多次二分类,最后每个叶结点对应的不再是类别,而是该结点下所有样本的健康系数均值,作为对这些样本健康系数的预测。模型树
告诉每个人健康系数,同时还发给他们卡片。同决策树,多次二分类后,叶结点对应的是一个卡片,这个卡片上的m个数字是由结点下所有样本决定的(这n个人的卡片数字不都是一样的,只有同一个叶结点下的人拿到的卡片数字一样)