随机森林1

最新推荐文章于 2023-05-14 14:01:31 发布

羽凌寒

最新推荐文章于 2023-05-14 14:01:31 发布

阅读量863

点赞数

分类专栏：图形图像机器学习文章标签：图像处理

本文链接：https://blog.csdn.net/u011630458/article/details/78722158

版权

图形图像同时被 2 个专栏收录

85 篇文章 4 订阅

订阅专栏

机器学习

6 篇文章 0 订阅

订阅专栏

简介

　　本篇主要是对随机森林的笔记记录。

具体实现

　　基本原理就不做介绍了，网上很多资料。这里直接根据代码讲解下具体实现流程。

前提准备

　　这里用一个数据分类作为讲解，待分类的数据如下：
             
如上所示，最前面的‘+’、‘-’为数据分类标签，这里将数据分为 ‘+样本’和 ‘-样本’。
数据有两组，分别为训练集(2950个数据样本)和测试集(994个数据样本)，其中每个样本包含25个(0,1)数据，每个数据就表示该样本的一个特征。

训练流程

　　1、设置tree的数量为10，表示我们需要训练10颗随机数。

    2、从训练集中随机抽取2950个样本(数据样本可以重复)样本作为一次训练的训练样本集D。

    3、如果D中所有样本都是‘+’或者都是‘-’，则当前训练树根节点标签属性为‘+’或者‘-’，训练结束。

    4、从25个样本特征中随机抽取25个特征(特征可重复)作为训练特征集A。通过信息熵公式，计算出在哪个特征下，训练样本集D的信息增益最大。
       (比如当前计算第6个特征，则依次抽取集合D中，所有样本的第六个数据，加入计算得到对应信息增益值，根据增益值比较，得到最大增益值对应特征值)。

    5、根据最大信息增益特征值，将训练样本D分为2类，并且tree分别对应创建2个子节点，同时在训练特征集中将当前最大增益特征值删除，并且当前节点特征属性为该最大增益特征值。
       (比如得到特征值为12，则训练样本集D中，每个样本第12个数据，为1的分为1类，为0的分为一类)。

    6、检测新分类出来的的2个训练集中，如果某个集合样本标签全部为‘+’或者全部为‘-’,则该集合对应的节点标签属性为对应的‘+’或者‘-’,该分支训练结束。
       如果当前训练特征集合数据为空，则比较当前训练集中，如果‘+’样本数量大于‘-’样本数量，则当前节点标签属性为‘+’,反之为‘-’。

    7、如果新分类训练集和剩下的训练特征集合不满足第6步，则进入第5步，继续训练计算，知道最后特征集合为空或者所有分类特征集标签全部一致。
       则完成一颗树的训练。

    8、把2-7步循环10，并将训练树结果保存，便得到最终10颗树的训练模型。

测试流程

　　1、保证测试样本数据格式需要和训练样本保持一致。

　　2、获取一个训练样本，放入一个模型树中，如果树的根节点为‘+’或者‘-’,则返回当前树的标签对应的‘+’或者‘-’。

　　3、检测根节点属性(训练时候每个节点保存的当前最大信息增益属性)，根据测试样本当前特征属性值为1或者0，进入到树对应分支中。

　　4、检测当前节点标签，如果有，则直接返回该标签，表示为该样本的结果标签。

　　5、如果没有标签，则检查当前节点属性，找到测试样本对应的特征属性值，进入到树对应分支，跳转到第4步继续检测，直到找到该样本标签返回。

　　6、依次循环10次，对应得到10颗随机树对应返回的标签结果，如果标签‘+’>‘-’,则返回当前测试样本分为结果为‘+’,反之为‘-’。

羽凌寒

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
随机森林1

简介　　本篇主要是对随机森林的笔记记录。具体实现　　基本原理就不做介绍了，网上很多资料。这里直接根据代码讲解下具体实现流程。前提准备　　这里用一个数据分类作为讲解，待分类的数据如下：如上所示，最前面的‘+’、‘-’为数据分类标签，这里将数据分为 ‘+样本’和 ‘-样本’。数据有两组，分别为训练集(2950个数据样本)和测试集(994个
复制链接

扫一扫