机器学习(一)决策树与随机森林(1)
-
可以做回归、分类
内容:
信息熵 熵,联合熵,条件熵,互信息 √ 决策树学习算法 信息增益 ID3,C4.5,CART Bagging与随机森林
多个决策树建立===形成随机森林,决策的最终结果的和为最终值
做分类的时候用的是熵值决策树的分类有明显的锯齿
做回归的时候用的可能就是均方,方差等准则
- 理论
决策树 : level
- 构造决策树的重点:
对每一个结点如何分类,如何划分可以使分类鲜明
- 度量不同划分方法的工具:熵
熵:信息含量的量化指标,可以用来做系统方程化的目标或参数依据
具体参考 https://www.cnblogs.com/daguonice/p/11179662.html
其中
熵不能为负
- 信息熵的公式
H(x)=-∑p(xi)log2(p(xi))
p(xi)表示事件xi发生的概率
- 对公式的解释
- 让概率可加:求对数
- 让熵非负:式子前加负号
- 对每一个xi有不同的对数值和概率值
- 因此对事件X求 期望 就得到上述公式H(x)
联合熵、条件熵、互信息
联合熵
相应的,可得X,Y的联合熵就是把P(X)变成联合分布的P(X,Y)
条件熵
对上述熵值, H(X,Y) – H(X)就表示在X发生的前提下,Y的熵H(Y|X)
互信息
H(X,Y)- H(Y)=H(X|Y)
有H(X)+H(Y)-H(X,Y)=I(X,Y) 表示互信息
同时可以有
H(Y|X)=H(Y)- I(X,Y)
============ 延伸===============
交叉熵
- 决策树实例
- 注意点:
- 不是所有的决策树都是二叉树
- 不是所有的属性都用来做判断
- 也可以对所有N个属性分成x个n属性的决策树
- 当对应的叶子结点的熵=0,就证明分类分对了,不用再划分了
决策树
根据4得结论,我们的划分策略是:
从根结点往下向叶子结点求熵,熵降的越快越好,贪心算法,则每一步的熵降的越快越好,不过不见得这种划分是最优的。
决策树 Decision Tree
- 决策树是一种树型结构,其中每隔内部结点表示在一个属性上的测试,每个分治代表一个测试输出,每个叶结点代表一种类别
- 决策树学习是以实例为基础的归纳学习
- 决策树学习采用自顶向下的递归方法,其基本思想是以信息熵为度量构造一颗熵值下降最快的树,到叶子节点处的熵值为0,此时每个叶节点中的实例都属于同一类。
决策树学习的生成方法----见随机森林与决策树 ( 2 )
建立决策树的关键,即在当前状态下选择哪个属性作为分类依据,根据不同的目标函数,建立决策树主要有以下三种算法
-
ID3 Iterative Dichotomiser
-
C4.5
-
CART Classification And Regression Tree