参考视频:https://www.bilibili.com/video/BV1zgXGYuESx
5.1 决策树算法
一种对实例进行分类的树形结构,通过多层判断区分目标所属类别
本质:通过多层判断,从训练数据集中归纳出一组分类规则
优点:
- 计算量小,运算速度快
- 易于理解,可清晰查看各属性的重要性
缺点:
- 忽略属性间的相关性
- 样本类别分布不均匀时,容易影响模型表现
决策树求解
问题核心:特征选择,每一个节点,应该选用哪个特征。
三种求解方法:ID3、C4.5、CART
ID3
利用信息熵原理选择信息增益最大的属性作为分类属性,递归地拓展决策树的分枝,完成决策树的构造。

值越小,变量的不确定性越小。
时,

即为划分前的信息熵减去划分后的信息熵
目标:划分后样本分布不确定性尽可能小,即划分后信息熵小,信息增益大
5.2 异常检测
根据输入数据,对不符合预期模式的数据进行识别
概率密度
概率密度函数是一个描述随机变量在某个确定的取值点附近的可能性的函数


被折叠的 条评论
为什么被折叠?



