1. 概念
机器学习:在某型任务中(T),利用一些经验(E),提高性能(P)
本质:表示、分类、预测
2.应用
自然语言处理:语音识别、文本挖掘
3. 一般泛型
- 监督学习
- 无监督学习
- 强化学习
4. 统计机器学习—— 函数近似
-
设置:实例集合X、未知的目标函数f:X -> Y、函数假设集合H={h|h:X -> Y}
-
给定:目标函数的训练样本{<Xi,Yi>}
-
确定h属于H,可以最好近似f
-
学习:H空间上的优化问题,各种目标函数(0-1损失)
可以采用手段:决策树
对每一个样例建立一条从根到叶的路径,但是可能没有泛化能力
同一个训练集,可以有多棵树与其一致
贪心:基于最优化某项准则的属性切分示例
确定特测条件:
依赖于属性类型:名词性/离散、有序、连续
依赖于切分的分支个数:两路切分、多路切分 -
对名词属性的切分:
-
多路切分:一个离散属性对应一路切分;
-
两路切分:离散属性值被切分为两个子集需要寻找最优切分
-
对连续属性的切分:
离散化构造有序的类属性:静态,在起始位置一次离散化;动态,范围可以通过等区间或等频率确定,或者是聚类
二值决策:(A<V)or(A>=V) ,考虑所有可能的切分并选择最好的,计算量可能非常大 -
停止切分准则
最理想的是每个子集为“皆为正例”或“皆为反例”
使用贪心搜索 更倾向结点的数据具有同质类别分布
要对节点混杂度进行测量
评价:熵
信息增益:
选择最大增益
缺点:倾向选择具有切分分支多的属性,因为每份可以有很少的样本,但是很纯
- 树归纳的停止准则
当一个结点上所有样本属于同一个类别,停止扩展
当一个节点上所有样本具有相似属性值,停止扩展
提早结束 - 基于决策树的分类
优点:构建过程计算资源开销小、分类未知的样本速度级快、对于小规模的树比较容易解释、在许多小的简单数据集合上性能与其他方法相似
缺点:欠拟合、过拟合;特征值丢失
过拟合处理方式:
预剪枝(所有实例属于同一类或者所有属性值相同)
后剪枝:自底向上,用叶节点代替子树
缺少的属性值的处理方式:
缺少影响度量的计算方式,分配方式和分类方式