机器学习面试准备之三、决策树与随机森林

机器学习面试准备之三、决策树与随机森林

一、决策树阐述

决策树是一种基本的分类与回归方法,学习通常包含三个步骤:特征选择、决策树的生成和决策树的剪枝。

决策树由结点和有向边组成,结点包括内部结点和叶节点,内部结点表示一个特征或属性,叶节点表示一个类。

决策树学习本质是从训练数据集中归纳出一组分类规则;决策树学习的损失函数通常是正则化的极大似然函数,学习策略是由训练数据集估计条件概率模型。

决策树学习的算法通常是一个递归地选择最优特征,并根据该特征进行分割。这一过程对应着决策树的构建,也对应着特征空间的划分。使得划分之后的各个子集能够被基本分类,那么构建叶节点;否则继续递归划分。

决策树可能发生过拟合,因此需要剪枝,从下而上进行,减去过于细分的结点,使其会退到父结点。

二、特征选择

通常特征选择的准则是信息增益或信息增益比。我们选择信息增益最大的那个分割。

2.1熵(entropy)

在信息论和概率统计中,熵是表示随机变量不确定性的度量。熵越大,随机变量的不确定性就越大。

设X是一个取有限个值的离散随机变量,其概率分布为:P(X=xi) = pi , i=1,2…n

则随机变量X的熵的定义为:

image

2.2条件熵

  • 3
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值