目录
主要内容
决策树
决策树学习采用的是自顶向下的递归方法,
其基本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子节点处的熵值为零,
此时每个叶节点中的实例都属于同一类。
有监督学习
建立决策树的关键,即在当前状态下选择哪个属性作为分类依据。根据不同的目标函数,建立决策树主要有一下三种算法。
ID3
C4.5
CART
信息增益
三种决策树学习算法
决策树的例子
决策树的过拟合
决策树对训练属于有很好的分类能力,但对未知的测试数据未必有好的分类能力,泛化能力弱,即可能发生过拟合现象。
剪枝
随机森林
Bootstraping
Bootstraping的名称来自成语“pull up by yourown bootstraps”,意思是依靠你自己的资源,称为自助法,它是一种有放回的抽样方法。
注: Bootstrap本义是指高靴子口后面的悬挂物、小环、带子,是穿靴子时用手向上拉的工具。“pullup by your own bootstraps”即“通过拉靴子让自己上升”,意思是“不可能发生的事情”。后来意思发生了转变,隐喻“不需要外界帮助,仅依靠自身力
量让自己变得更好” 。
Bagging的策略
每一个样本能生成一个决策树,最后投票
bagging不仅适合于决策树,也适合于其它算法
类似于民主政治
adaboost精英政治,加权平均
随机森林
随机,1 样本有放回抽样
2是属性的选择
提升的概念
Adaboost
举例