随机森林算法

11 题目的主要研究内容

(1)决策树、随机森林的概念,数据和待选特征的随机选取。随机森林算法分类器的原理和算法流程。利用现有的公开数据集实现分类器,并利用分类投票对分类结果进行分析评判。

(2)我在本组中主要负责PPT讲解部分。

12 题目研究的工作基础或实验条件

(1)硬件环境:PC电脑端

(2)软件环境:Python和Matlab

13 设计思想

        作为高度灵活的一种机器学习一算法,随机森林拥有广泛的应用前景,从市场营销到医疗保健保险,既可以用来做市场营销模拟的建模,统计客户来源,保留和流失,也可用来预测疾病的风险和病患者的易感性。

        随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支——集成学习方法。从直观角度来解释,每棵决策树都是一个分类器,那么对于一个输入样本,N棵树会有N个分类结果。而随机森林集成了所有的分类投票结果,将投票次数最多的类别指定为最终的输出,这就是一种最简单的Bagging 思想。

1.3.1 监督式机器学习

        从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求包括输入输出,也可以说是特征和目标。训练集中的目标是由人标注的。监督学习就是最常见的分类问题,通过已有的训练样本去训练得到一个最优模型,再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的。也就具有了对未知数据分类的能力。监督学习的目标往往是让计算机去学习我们已经创建好的分类系统。

        监督学习是训练神经网络和决策树的常见技术。这两种技术高度依赖事先确定的分类系统给出的信息,对于神经网络,分类系统利用信息判断网络的错误,然后不断调整网络参数。对于决策树,分类系统用它来判断哪些属性提供了最多的信息。监督学习里典型的例子就是KNNSVM

1.3.2 分类的概念

        在机器学习中,算法用于将某些观察结果、事件或输入分类到组中。例如,垃圾邮件过滤器会将每封电子邮件分类为“垃圾邮件”或“非垃圾邮件”。

        分类问题是用于将事物打上一个标签,通常结果为离散值。例如判断一幅图片上的动物是一只猫还是一只狗,分类通常是建立在回归之上,分类的最后一层通常要使用函数进行判断其所属类别。

1.3.3 随机森林的概念

        随机森林是由很多决策树构成的,不同决策树之间没有关联。

当进行分类任务时,新的输入样本进入,就让森林中的每一棵决策树分别进行判断和分类,每个决策树会得到一个自己的分类结果,决策树的分类结果中哪一个分类最多,那么随机森林就会把这个结果当做最终的结果。

1.3.5 随机森林算法实现

1从原始数据m*n维数据中有放回的抽取样本容量与原数据相同的数据样本m*n,样本数量为n;

2)从数据的n维特征中无放回的随机抽取m维特征。以随机色林的分类功能为例,通过m维特征中,通过计算信息增益的方式找到分类效果最好的一维特征k,及其阈值t,小于t的样本划分到左节点,其余的划分到右节点,继续训练其他节点。

3)重复训练所有的数据样本,得到n个决策树。随机森林便是n个决策树集合起来的森林,当预测结果时,所有的决策树对预测集一一进行分类,得到其分类结果,统计票数得到结果。

1.3.6 数据集的随机选取

从原始的数据集中采取有放回的抽样,构造子数据集,子数据集的数据量是和原始数据集相同的。不同子数据集的元素可以重复,同一个子数据集中的元素也可以重复。

1.3.7 待选特征的随机选取

与数据集的随机选取类似,随杌森林中的子树的每一个分裂过程并未用到所有的待选特征,而是从所有的待选特征中随机选取一定的特征,之后再在随机选取的特征中选取最优的特征。

1.3.8 随机森林的优点

  1. 可以分类高维度的数据,并且不用降维,无需做特征选择
  2. 可以判断特征的重要程度。如果有很大一部分的特征遗失,仍可以维持准确度。
  3. 不容易过拟合
  4. 训练速度快,容易做成并行方法
  5. 对于不平衡的数据集来说,它可以平衡误差。

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小小蜗牛,大大梦想

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值