人工智能的决策树介绍

决策树模型

决策树基于“树”结构进行决策

  • 每个“内部结点”对应于某个属性上的“测试”
  • 每个分支节点对应于该测试的一种可能结果(即属性的某个取值)
  • 每个“叶结点”对应于一个“预测结果”

学习过程:通过对训练样本的分析来确定“划分属性”(即内部结点所对应的属性)

预测过程:将测试示例从根结点开始,沿着划分属性所构成的“判定测试序列”下行,直到叶结点

决策树简史

第一个决策树算法:CLS(Concept Learning System)

使决策树受到关注、成为机器学习主流技术的算法:ID3

最常用的决策树算法:C4.5

可以用于回归任务的决策树算法:CART(Classification and Regression Tree)

基于决策树的最强大算法:RF(Random Forest)

决策树的基本算法

基本流程:

策略:“分而治之”

自根至叶的递归过程

在每个中间结点寻找一个“划分”属性

三种停止条件:①当前结点包含的样本全属于同一类别,无需划分;②当前属性集为空,或是所有样本在属性集上取值相同,无法划分;③当前结点包含的样本集合为空,不能划分

信息增益

信息熵

信息熵是度量样本集合“纯度”最常用的一种指标

假设当前样本集合D中第k类样本所占的比例为p_{k},则D的信息熵定义为:

Ent(D)=-\sum_{k=1}^{|y|}p_{k}log_{2}(p_{k}) 

其中y指的是总共有多少个类

Ent(D)的值越小,则D的纯度越高

如果p=0,则plog_{2}(p)=0

Ent(D)的最小值:0,此时D只有一类;

最大值:log_{2}(y),此时D每个样本都是一类

信息增益

离散属性a的取值:{a^1,a^2...a^v}

D_{v}:D中在a上取值=a^v的样本集合

以属性a对数据集D进行划分所获得的信息增益为:

Gain(D,a) = Ent(D)-\sum_{v=1}^{V}\frac{|D^v|}{|D|}Ent(D^v)

信息增益指的是划分前的信息熵--划分后的信息熵

 \frac{|D^v|}{|D|}指的是第v个分支的权重,样本越多越重要

生成决策树的例子

 增益率

信息增益:对可取值数目较多的属性有所偏好

Gain_-ratio(D,a)=\frac{Gain(D,a)}{IV(a)}

其中IV(a)= -\sum_{v=1}^{V}\frac{|D^v|}{|D|}log_{2}\frac{|D^v|}{|D|}

属性a的可能取值数目(即分支V越多),则IV(a)的值通常就越大

启发式:先从候选划分属性中找出信息增益高于平均水平的,再从中选取增益率最高的

基尼指数

Gini(D)=\sum_{k=1}^{|y|}\sum_{k'!=k}{p_{k}p_{k'}}=1-\sum_{k=1}^{|y|}p_{k}^{2} 

基尼指数越小,数据集D的纯度就越高

 属性a的基尼指数:Gini_-index(D,a)=\sum_{v=1}^{V}\frac{|D^{v}|}{|D|}Gini(D^{v})

在侯选属性集合中,选取那个使划分后基尼指数最小的属性

 划分选择vs剪枝

划分选择的各种准则虽然对决策树的尺寸有较大影响,但对泛化性能的影响很有限

剪枝方法和程度对决策树泛化性能的影响更为显著

剪枝是决策树对付“过拟合”的主要手段

剪枝

为了尽可能正确分类训练样本,有可能造成分支过多->过拟合,可通过主动去掉一些分支来降低过拟合的风险

预剪枝

提前终止某些分支的生长

后剪枝

生成一棵完全树,再“回头”剪枝

预剪枝后剪枝
时间开销训练时间开销降低,测试时间开销降低训练时间开销增加,测试时间开销降低
过/欠拟合风险过拟合风险降低,欠拟合风险增加过拟合风险降低,欠拟合风险基本不变
泛化性能后剪枝通常优于预剪枝

连续值

基本思路:连续属性离散化

连续变量x_{1}<x_{2}<....<x_{n},取区间的中点\frac{x_{i}+x_{i+1}}{2}作为属性值

常见做法:二分法

n个属性值可形成n-1个候选划分

然后可将它们当做n-1个离散属性值处理

 缺失值

现实应用中,经常会遇到属性值“缺失”现象;

选择划分属性的基本思路:样本赋权,权重划分

缺失值计算信息增益

 从“树”到“规则”

一棵决策树对应于一个“规则集”

每个从根结点到叶结点的分支路径对应于一条规则

好处:①改善可理解性;②进一步提高泛化能力

多变量决策树

每个分支结点不仅考虑一个属性;“斜决策树”不是为每个非叶节点寻找最佳划分属性,而是建立一个线性分类器

线性回归

 f(x)=wx_{i}+b      f(x)\simeq y_{i}

离散属性的处理:若有“序”,则连续化;否则,转化为k维向量

令均方误差最小化,有(w^{*},b^{*})=\frac{1}{m}\sum_{i=1}^{m}(f(x_{i})-y_{i})^2=\frac{1}{m}\sum_{i=1}^{m}(y_{i}-wx_{i}-b)^2

E_{(w,b)}=\sum_{i=1}^{m}(y_{i}-wx_{i}-b)^2进行最小二乘参数估计

分别对w和b求导:

\frac{\partial E_{(w,b)}}{\partial w}=2(w\sum_{i=1}^{m}x_{i}^{2}-\sum_{i=1}^{m}(y_{i}-b)x_{i})

\frac{\partial E_{(w,b)}}{\partial b}=2(mb-\sum_{i=1}^{m}(y_{i}-wx_{i}))

令导数为0,得到闭式解:

w=\frac{\sum_{i=1}^{m}y_{i}(x_{i}-\bar x)}{\sum_{i=1}^{m}x_{i}^{2}-\frac{1}{m}(\sum_{i=1}^{m}x_{i})^{2}}, b=\frac{1}{m}\sum_{i=1}^{m}(y_{i}-wx_{i})

广义线性模型

一般形式

y=g^{-1}(w^{T}+b)g^{-1}是单调可微的联系函数

令g(.)=ln(.)则得到对数线性回归,lny=w^{T}x+b

二分类任务

线性回归模型产生的实值输出z=w^{T}+b,期望输出y∈{0,1}

对数几率函数简称“对率函数”y=\frac{1}{1+e^{-z}},理想的“单位阶跃函数”y=\left\{\begin{matrix} 0,z<0 & \\ 0.5,z=0& \\ 1,z>0 & \end{matrix}\right.

对率回归(对数几率回归)

以对率函数为联系函数:y=\frac{1}{1+e^{-z}}变为y=\frac{1}{1+e^-{(w^{T}x+b)}},即ln\frac{y}{1-y}=w^{T}x+b

无需事先假设数据分布,可得到“类别”的近似概率预测,可直接应用现有数值优化算法求取最优解

若将y看作类后验概率估计p(y=1|x)

ln\frac{y}{1-y}=w^{T}x+b可写为ln\frac{p(y=1|x)}{p(y=0|x)}=w^{T}x+b

于是可使用“极大似然法”,给定数据集{(x_{i},y_{i})}_{i=1}^{m}最大化“对数似然”函数

\delta(w,b)=\sum_{i=1}^{m}lnp(y_{i}|x_{i};w,b)

  • 24
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值