机器学习面试准备之三、决策树与随机森林

最新推荐文章于 2024-07-30 13:29:56 发布

如今我已剑指天涯

最新推荐文章于 2024-07-30 13:29:56 发布

阅读量1.1w

点赞数 3

分类专栏：面试准备文章标签：面试机器学习决策树

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sunpeng19960715/article/details/54798744

版权

本文是机器学习面试系列的第三篇，主要介绍决策树和随机森林。内容涵盖决策树的生成、特征选择（信息增益、信息增益比）、剪枝策略，以及随机森林的构建原理和优势。

摘要由CSDN通过智能技术生成

机器学习面试准备之三、决策树与随机森林

一、决策树阐述

决策树是一种基本的分类与回归方法，学习通常包含三个步骤：特征选择、决策树的生成和决策树的剪枝。

决策树由结点和有向边组成，结点包括内部结点和叶节点，内部结点表示一个特征或属性，叶节点表示一个类。

决策树学习本质是从训练数据集中归纳出一组分类规则；决策树学习的损失函数通常是正则化的极大似然函数，学习策略是由训练数据集估计条件概率模型。

决策树学习的算法通常是一个递归地选择最优特征，并根据该特征进行分割。这一过程对应着决策树的构建，也对应着特征空间的划分。使得划分之后的各个子集能够被基本分类，那么构建叶节点；否则继续递归划分。

决策树可能发生过拟合，因此需要剪枝，从下而上进行，减去过于细分的结点，使其会退到父结点。

二、特征选择

通常特征选择的准则是信息增益或信息增益比。我们选择信息增益最大的那个分割。

2.1熵（entropy）

在信息论和概率统计中，熵是表示随机变量不确定性的度量。熵越大，随机变量的不确定性就越大。

设X是一个取有限个值的离散随机变量，其概率分布为：P(X=xi) = pi , i=1,2…n

则随机变量X的熵的定义为：

2.2条件熵

最低0.47元/天解锁文章

如今我已剑指天涯

关注

3
点赞
踩
16

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。