机器学习面试考点大杂烩

最新推荐文章于 2020-09-21 18:54:24 发布

许洋_UCAS

最新推荐文章于 2020-09-21 18:54:24 发布

阅读量359

点赞数

分类专栏：面试 Machine Learning 文章标签：机器学习决策树面试算法

本文链接：https://blog.csdn.net/breathing_yang/article/details/100989718

版权

Machine Learning 同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

面试

1 篇文章 0 订阅

订阅专栏

本文深入探讨了机器学习面试中常见的决策树和逻辑回归知识点。首先介绍了决策树的划分规则，包括信息增益、信息增益比和基尼系数，并解释了连续值的处理方式。接着讲解了逻辑回归的原理，如sigmoid函数、最大似然估计、损失函数及其求导。是准备机器学习面试的宝贵资料。

摘要由CSDN通过智能技术生成

^_- 更新中 ……

文章目录

一、决策树

1 划分规则

1.1 如何选择最优划分属性？划分过程中，在每一次划分时，选取能使其“不纯度”减小最大的属性。

1.2 常用的衡量“不纯度”的指标。信息增益，信息增益比（信息增益率），基尼系数。

1.3 以上三种指标的具体公式。

1）信息增益（对应算法：ID3）

先介绍一下信息熵的公式：

$-\sum_{i=1}^{I}p(i|D)log(p(i|D))$

其中， $D$ 表示当前样本集合； $I$ 为样本类别数； $p (i ∣ D)$ 为第 $i$ 类样本的占比。

信息增益 (Information Gain):

$-\sum_{v=1}^{V}\frac{|D^v|}{|D|}Entropy(D^v)$

其中， $∣ D ∣$ 表示当前样本总的数目； $V$ 为根据某一属性划分后的分支数（类数）； $D^v|$ 为划分后第 $v$ 类的样本数目。

2）信息增益比（对应算法：C4.5）

信息增益比是对信息增益的改进，因为信息增益偏向于例如 ID 这样的属性。

$Gain\_ratio(D)=\frac{Gain(D)}{IV(D)}$

其中，

$IV(D)={-\sum_{v=1}^{V}\frac{|D^v|}{|D|}log\frac{|D^v|}{|D|}}$

信息增益比的使用对可取值数目较少的属性有所偏好，在 C4.5 算法并没有直接选择增益比最大的候选划分属性，而是使用了一个启发式方法：先从候选划分属性中找出增益高于平均水平的属性，再从中选择增益比最高的。

3）基尼系数（对应算法：CART）

CART 决策树选择“基尼系数”来选择划分属性。

直观来说，Gini(D) 反应了从数据集 D 中随机抽取两个样本，不属于同一类样本的概率。

$1-\sum_{i=1}^{I}p(i|D)^2$

其中， $D$ 表示当前样本集合； $I$ 为样本类别数； $p (i ∣ D)$ 为第 $i$ 类样本的占比。

1.4 决策树中，连续值如何处理？

最简单的策略是采用二分法；将某连续属性的值进行排序，假设有n个值，插入n-1个切分点，相当于每相邻两个值之间插入一个切分点，插入到切分的值一般为这两者值的平均值。然后遍历切分点的值，例如遍历到的值为 num，那么将大于num的作为一类，小于num的作为一类。根据两类求解指标（如信息增益），并取最优指标对应的切分点为作为属性的切分点。

1.5 连续属性可多次作为划分属性。与离散属性不同，若当前节点划分属性为连续属性，该属性还可以作为其后代节点的划分属性。