周志华机器学习读后总结第四、五章

最新推荐文章于 2019-07-03 18:28:08 发布

漠北墨杯

最新推荐文章于 2019-07-03 18:28:08 发布

阅读量813

点赞数

分类专栏：数据挖掘，机器学习，算法文章标签：周志华机器学习章节总结神经网络决策树

本文链接：https://blog.csdn.net/baidu_32142047/article/details/78307124

版权

数据挖掘，机器学习，算法专栏收录该内容

15 篇文章 1 订阅

订阅专栏

决策树算法
什么是决策树？
顾名思义，决策树是基于树结构来进行决策的，它从给定训练数据集学得一个模型用以对新示例进行分类。一棵决策树包含一个根结点，若干内部结点和若干叶子结点。叶结点对应于决策结果，其他每个结点则对应于一个属性测试；每个结点包含的样本集合根据属性测试的结果被划分到子结点中；根结点包含样本全集，从根结点到每个叶结点的路径对应了一个判定测试序列。决策树学习的目的是为了产生一棵泛化能力强，即处理未见示例能力强的决策树，其基本流程遵循简单且直观的分而治之策略。

划分属性的选择
我们希望决策树的分支结点所包含的样本尽可能属于同一类别，即结点的纯度越来越高。我们常用信息增益来对应结点的纯度，某属性的信息增益越大，则意味着使用此属性来进行划分所获得的纯度提升越大。但信息增益准则对可取值数目较多的属性有所偏好，为减少这种偏好可能带来的不利影响，C4.5决策树算法使用增益率来选择最优划分属性。增益率准则对可取值数目较少的属性有所偏好，因此C4.5算法并不是直接选择增益率最大的候选划分属性，而是先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的。
CART决策树使用基尼指数来选择划分属性，基尼值越小，数据集的纯度越高。我们在候选属性集合中，选择那个使得划分后基尼指数最小的属性作为最优划分属性。

如何处理过拟合
剪枝是决策树学习算法对付过拟合的主要手段，有预剪枝和后剪枝之分；预剪枝对每个结点在划分前进行估计，后剪枝先从训练集生成一棵完整的决策树在自底向上对非叶结点进行考察。

基于连续值来生成决策树
用二分法对连续属性进行处理，再求样本集基于划分点二分后的信息增益。选择信息增益最大的属性作为根结点划分属性，此后结点划分过程递归进行，最终生成决策树。

神经网络
神经元模型
M-P神经元模型：在这个模型中，神经元接受到来自n个其他神经元传递过来的输入信号，这些输入信号通过带权重的连接进行传递，神经元接受到的总输入值将与神经元的阀值进行比较，然后通过激活函数（理想的激活函数是阶跃函数，但我们实际上常用Sigmoid函数作为激活函数。）处理以产生神经元的输出。把许多个这样的神经元按一定的层次结构连接起来，就得到了神经网络。

权值与阀值
神经网络的学习过程，就是根据训练数据来调整神经元之间的连接权以及每个功能神经元的阀值；即神经网络学到的东西，蕴含在连接权与阀值中。

误差逆传播（BP）算法
现实任务中使用神经网络时，大多是使用BP算法进行训练；BP网络一般是指用BP算法训练的多层前馈神经网络。BP算法说白了就是一个不断更新权值和阀值到满足条件为止的过程。
BP算法过程：现有训练集和学习率已确定在（0,1）范围内随机初始化网络中所有连接权和阀值根据公式重复的计算各层的连接权和阀值一直到满足条件为止。
累计误差逆传播算法：BP算法的目的是要最小化训练集上的累计误差，但需要进行很多次数的迭代；而累计误差逆传播算法直接针对累计误差最小化，在读取整个训练集一遍后才对参数进行更新，参数更新率会低很多。

BP神经网络如何解决过拟合
早停：若训练集误差降低但验证集误差升高，则停止训练，同时返回具有最小验证集误差的连接权和阀值。
正则化：在误差目标函数中增加一个用于描述网络复杂度的部分。

其他常见的神经网络
RBF网络 /ART网络/ SOM网络/ Elma网络/级联相关网络等。

深度学习
神经网络中，深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。即通过多层处理，逐渐将初始的低层特征表示转化为高层特征表示，再用简单模型即可完成复杂的分类等学习任务。