回归:目标变量是数值型,得到方程式
分类:目标变量是分类值,可能是一个数,贝叶斯网络概率,神经网络,超平面函数
1理解模型
测量精度
基尼系数
1.1衡量指标
1.1.1熵
混杂样本中,熵是混乱程度的量度,样本集合纯度
当数据量⼀致时,系统越有序,熵值越低;系统越混乱或者分散,熵值越⾼。
决策树目的:找到一个特征值,对其进行分类,然后使得纯度更高
1.1.2信息增益
信息增益:
以某特征划分数据集前后的熵的差值。熵可以表示样本集合的不确定性,熵越⼤,样本的不确定性就越⼤。
因此可以
使⽤划分前后集合熵的差值来衡量使⽤当前特征对于样本集合
D
划分效果的好坏
。
信息增益
= entroy(
前
) - entroy(
后
)
父集的熵减去子集熵值的加权和
例子: