r语言随机森林回归预测_科学网—RandomForest：随机森林预测生物标记biomarker——分类 - 刘永鑫的博文...

weixin_39779739

于 2021-01-16 22:01:30 发布

阅读量912

点赞数

文章标签： r语言随机森林回归预测

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39779739/article/details/113003223

版权

本文介绍了随机森林算法的基本概念，强调了它作为集成学习方法的特点。通过R语言的randomForest包，展示了如何进行分类分析，利用鸢尾花数据集进行实例操作，包括设置随机数种子、构建随机森林模型、查看变量重要性和分类贡献度，并进行了无监督分类的探讨。文章还提及了随机森林在宏基因组学中的应用，鼓励读者深入学习和实践。

摘要由CSDN通过智能技术生成

随机森林简介

如果读者接触过决策树(Decision Tree)的话，那么会很容易理解什么是随机森林。随机森林就是通过集成学习的思想将多棵树集成的一种算法，它的基本单元是决策树，而它的本质属于机器学习的一大分支——集成学习(Ensemble Learning)方法。随机森林的名称中有两个关键词，一个是“随机”，一个就是“森林”。“森林”我们很好理解，一棵叫做树，那么成百上千棵就可以叫做森林了，这样的比喻还是很贴切的，其实这也是随机森林的主要思想—集成思想的体现。“随机”的含义我们会在下边部分讲到。

其实从直观角度来解释，每棵决策树都是一个分类器(假设现在针对的是分类问题)，那么对于一个输入样本，N棵树会有N个分类结果。而随机森林集成了所有的分类投票结果，将投票次数最多的类别指定为最终的输出，这就是一种最简单的 Bagging 思想。

更多关于此方法在宏基因组学中的应用，请阅读之前分享的文章：

R randomForest包

randomForest包主要功能是分类和回归分析，一共提供了39个函数，最常用的就是randomForest来实现分类(Classification)和时间序列回归(Regression)

今天我们先讲最常用的分类方法(用于分组的特征Features)，下周再讲解回归的应用(时间序列预测模式，如预测股票、尸体死亡时间等)。

安装与加载# 安装

install.packages("randomForest")

# 加载

library(randomForest)

分类Classification

先了解一下输入数据格式，方便准备

使用R内置鸢尾花数据data(iris)

head(iris)

数据包括150个样品，4列属性数据，1列分组数据。Sepal.Length Sepal.Width Petal.Length Petal.Width Species

1 5.1 3.5 1.4 0.2 setosa

2 4.9 3.0 1.4 0.2 setosa

3 4.7 3.2 1.3 0.2 setosa

4 4.6 3.1 1.5

最低0.47元/天解锁文章

weixin_39779739

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
r语言随机森林回归预测_科学网—RandomForest：随机森林预测生物标记biomarker——分类 - 刘永鑫的博文...

随机森林简介如果读者接触过决策树(Decision Tree)的话，那么会很容易理解什么是随机森林。随机森林就是通过集成学习的思想将多棵树集成的一种算法，它的基本单元是决策树，而它的本质属于机器学习的一大分支——集成学习(Ensemble Learning)方法。随机森林的名称中有两个关键词，一个是“随机”，一个就是“森林”。“森林”我们很好理解，一棵叫做树，那么成百上千棵就可以叫做森林了，这样的...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。