随机森林算法

最新推荐文章于 2024-04-03 13:55:21 发布

小小蜗牛，大大梦想

最新推荐文章于 2024-04-03 13:55:21 发布

阅读量796

点赞数

文章标签：机器学习决策树集成学习随机森林

本文链接：https://blog.csdn.net/a1233219/article/details/125772394

版权

1．1 题目的主要研究内容

（1）决策树、随机森林的概念，数据和待选特征的随机选取。随机森林算法分类器的原理和算法流程。利用现有的公开数据集实现分类器，并利用分类投票对分类结果进行分析评判。

（2）我在本组中主要负责PPT讲解部分。

1．2 题目研究的工作基础或实验条件

（1）硬件环境：PC电脑端

（2）软件环境：Python和Matlab

1．3 设计思想

作为高度灵活的一种机器学习一算法，随机森林拥有广泛的应用前景，从市场营销到医疗保健保险，既可以用来做市场营销模拟的建模，统计客户来源，保留和流失，也可用来预测疾病的风险和病患者的易感性。

随机森林就是通过集成学习的思想将多棵树集成的一种算法，它的基本单元是决策树，而它的本质属于机器学习的一大分支——集成学习方法。从直观角度来解释，每棵决策树都是一个分类器，那么对于一个输入样本，N棵树会有N个分类结果。而随机森林集成了所有的分类投票结果，将投票次数最多的类别指定为最终的输出，这就是一种最简单的Bagging 思想。

1.3.1 监督式机器学习

从给定的训练数据集中学习出一个函数，当新的数据到来时，可以根据这个函数预测结果。监督学习的训练集要求包括输入输出，也可以说是特征和目标。训练集中的目标是由人标注的。监督学习就是最常见的分类问题，通过已有的训练样本去训练得到一个最优模型，再利用这个模型将所有的输入映射为相应的输出，对输出进行简单的判断从而实现分类的目的。也就具有了对未知数据分类的能力。监督学习的目标往往是让计算机去学习我们已经创建好的分类系统。

监督学习是训练神经网络和决策树的常见技术。这两种技术高度依赖事先确定的分类系统给出的信息，对于神经网络，分类系统利用信息判断网络的错误，然后不断调整网络参数。对于决策树，分类系统用它来判断哪些属性提供了最多的信息。监督学习里典型的例子就是KNN、SVM。