机器学习基础算法梳理-3

最新推荐文章于 2022-10-13 14:35:03 发布

Jolahua

最新推荐文章于 2022-10-13 14:35:03 发布

阅读量351

点赞数

分类专栏：机器学习文章标签：机器学习算法

本文链接：https://blog.csdn.net/p515659704/article/details/89004549

版权

机器学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

一、信息论基础

1.1 熵

1.1.1 熵定义

熵的概念最早起源于物理学，用语度量一个热力系统的无序程度
在信息论则叫信息量；从控制论上来看，应叫不确定性。

1.1.2 联合熵

联合熵是一组变量之间不确定性的衡量方法：

x, y 为X, Y中特定的值，相应的，P(x, y)是这些值联合出现的概率。其性质是：

大于每个独立的熵
小于独立熵的和

可参考下图，其中把两个单独概率事件，关心的问题变成了p1与p2有什么联系
p1,p2联系

1.1.3 条件熵

由1.1.2我们知道，x和y的联合熵会比单独的熵大。对于y来说，引入x增大了熵。那么，x的引入增大了多大的熵，这就是条件熵。
H(Y|X) = H(X, Y) - H(X)
举个例子：比如资金的多少，和我会坐巴士还是坐滴滴可以组成联合概率分布H(X, Y),因为这两个事件加起来的信息量是大于单一事件的信息量的。加入**H(X)对应着资金的信息量，由于资金的多少和我坐什么交通工具并不是独立分布的。所以在已知资金的情况下，我选择交通工具的信息量或者说不确定性就减少了，也就是当已知H(X)**这个信息量，**H(X, Y)**剩下的信息量就是条件熵：
H(Y|X) = H(X, Y) - H(X)
参考：https://zhuanlan.zhihu.com/p/26551798

1.1.4 信息增益

信息增益是在决策树算法中用来选择特征的指标，信息增益越打，则特征的选择性约好，定义为：待分类的集合的熵和选定某个特征的条件熵之差：

1.1.5 基尼不纯度

将来自集合中的某种结果随机应用于集合中某一数据项的预期误差率。大概意思就是一个随机事件变成它的对立事件的概率。
不是很懂，参考：https://blog.csdn.net/a2099948768/article/details/82465150

二、决策树

决策树是一种常见的机器学习方法，以二分类任务为例子，我们希望从给定数据训练集中学习到用以对一个新的示例进行分类，这个把样本分类的任务，可看作是对“当前样本属于正常吗”这个问题的“决策”或“判定”过程。
简述；学习的目的是产生一颗泛化能力非常强的树，对数据进行分类。

2.1 决策树

原理：决策树（回归树）实际上是将空间用超平面进行划分的一种方法，每次分割的时候，都将当前的空间一分为二，这样使得每一个叶子节点都是在空间中的一个不相交的区域，在进行决策的时候，会根据输入样本每一维feature的值，一步一步往下，最后使得样本落入N个区域中的一个（假设有N个叶子节点）。

2.1.1 ID3算法

ID3算法最早是由罗斯昆（J. Ross Quinlan）于1975年在悉尼大学提出的一种分类预测算法，算法的核心是“信息熵”。ID3算法通过计算每个属性的信息增益，认为信息增益高的是好属性，每次划分选取信息增益最高的属性为划分标准，重复这个过程，直至生成一个能完美分类训练样例的决策树。
决策树是对数据进行分类，以此达到预测的目的。该决策树方法先根据训练集数据形成决策树，如果该树不能对所有对象给出正确的分类，那么选择一些例外加入到训练集数据中，重复该过程一直到形成正确的决策集。决策树代表着决策集的树形结构。
在信息论中，期望信息越小，那么信息增益就越大，从而纯度越高，ID3算法的核心就是以信息增益来度量属性的选择

2.1.2 C4.5算法

简述：将具有p维特征的n个样本分到c个类别去，是ID3算法的改进版本

用信息增益率来选择属性，克服了信息增益选择属性时偏向选择值多的属性的不足
在树构造过程中进行剪纸
能对连续属性进行离散的处理
能对不完成的数据进行处理

优点：分类规则易于理解，准确度高
缺点：在构造树的过程中，要对数据集进行多次的顺序扫描和排序，因而导致算法的效率低下。

2.1.3 CART分类树

简述：本质是对特征空间进行二元划分，所产生的树是一棵二叉树，并能够对标量属性与连续属性进行分裂。
相比C4.5算法：

若满足停止分裂条件，则停止分裂
1. 样本个数小于预定阙值
2. Gini指数小于预定阙值
3. 没有特征可供分裂
选择最小的Gini指数进行分裂
递归以上步骤，直至停止

三种算法核心如下：
核心对比
参考：https://blog.csdn.net/weixin_40604987/article/details/79296427

2.2 过拟合问题

2.2.1 问题来由

样本噪音数据过大
样本抽取错误
建模使用了样本中太多无关输入变量
决策树构造方法问题
以上均是现象，本质都是“业务逻辑理解错误造成的”

2.2.2 解决方法

合理，有效的抽样，并根据业务逻辑训练集去产生决策树
先剪枝
后剪枝

三、评估分类器性能

没有接触过多决策树性能问题，后续补上。参考：https://www.jianshu.com/p/498ea0d8017d/

Jolahua

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习基础算法梳理-3

#@TOC一、信息论基础1.1 熵1.1.1 熵定义熵的概念最早起源于物理学，用语度量一个热力系统的无序程度在信息论则叫信息量；从控制论上来看，应叫不确定性。1.1.2 联合熵联合熵是一组变量之间不确定性的衡量方法：x, y 为X, Y中特定的值，相应的，P(x, y)是这些值联合出现的概率。其性质是：大于每个独立的熵小于独立熵的和可参考下图，其中把两个单独概率事件，关...
复制链接

扫一扫

专栏目录