机器学习----模型及算法03

最新推荐文章于 2024-07-19 16:36:18 发布

无心♧

最新推荐文章于 2024-07-19 16:36:18 发布

阅读量152

点赞数 3

分类专栏：机器学习----有监督学习文章标签： python 机器学习集成学习随机森林

本文链接：https://blog.csdn.net/m0_57646558/article/details/132858256

版权

机器学习----有监督学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

机器学习----模型及算法02_无心♧的博客-CSDN博客https://blog.csdn.net/m0_57646558/article/details/132744085?spm=1001.2014.3001.5502 关于机器学习的模型及算法，今天来讲述集成算法（有监督）、随机森林模型。

七、集成算法

集成学习就相当于是逐步放大错误。

1、什么是集成算法？

集成算法是通过聚合多个分类器的预测来提高分类准确率。集成算法由训练数据构建一组基分类器，然后通过对每个基分类器的预测进行投票来进行分类。

模型及算法	作用	基本思想	优点	缺点
集成算法	可用于分类问题，也可用于回归问题	通过聚合多个分类器的预测来提高分类准确率	具有较高的准确率	模型的训练过程比较复杂，效率不是很高

2、集成分类器

集成分类器的性能优于单个分类器必须满足的两个条件是：

①基分类器之间应该是互相独立的

②基分类器应当好于随机猜测分类器。

3、集成算法的分类

（1）装袋（Bagging）

它又称为自助聚集(Bootstrap Aggregating)， boostrap是一种有放回的抽样方法，抽样策略是简单的随机抽样。

【注】原理：把多个基础模型放到一起，最后再求平均值就可以了。

装袋增强了目标函数的表达功能，通过减低基分类器方差改善了泛化误差，装袋的性能依赖于基分类器的稳定性。

（2）随机森林

随机森林：简单理解就是数据采样和特征选择是随机的，多个决策树构成森林。

模型及算法	作用	基本思想	优点	缺点
随机森林	用于预测离散或连续变量的监督学习算法	通过随机选择特征和数据集的子集，来构建多个决策树模型，并将它们的预测结果进行平均或投票，来提高预测的准确性	能够处理非线性关系和缺失值，具有较高的准确性和鲁棒性	模型复杂度较高，需要较长的训练时间和较大的存储空间

【注】构成随机森林的决策树越多，效果不一定越好。

（3）提升（Boosting）

提升是一个迭代过程（若学习器开始），用来自适应地改变训练样本的分布，使得基分类器聚集在那些难分的样本上；它与装袋不同，提升给每一个训练样本赋一个权值，而且可以在每一轮提升过程结束时自动地调整权值。

举例

若一个箱内有10个球，9个红球、1个黑球，抽到黑球视为中奖，当抽取一个红球后，再放回红球的同时放入一个黑球，那么久增加了抽到黑球的概率。

【注】此例子就是通过不断地增加中奖的权值

（4）堆叠（Stacking）

聚合使用多个分类器，如KNN、SVM等等。要知道堆叠在一起可以使得准确率得以提升，在一定程度上防止过拟合。

4、代码部分

以鸢尾花数据为例：

# 导入必要的库
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# 加载鸢尾花数据集
iris = load_iris()
X = iris.data
y = iris.target

# 将数据集划分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建一个随机森林分类器
rf_classifier = RandomForestClassifier(n_estimators=100, random_state=42)

# 在训练集上拟合模型
rf_classifier.fit(X_train, y_train)

# 在测试集上进行预测
y_pred = rf_classifier.predict(X_test)

# 计算分类准确率
accuracy = accuracy_score(y_test, y_pred)
print(f"随机森林分类器的准确率: {accuracy:.2f}")

这个代码示例中的关键步骤包括：

导入必要的库，包括 NumPy、Pandas、scikit-learn 的数据集加载功能、模型选择、随机森林分类器以及分类准确度评估指标。
使用 load_iris() 函数加载鸢尾花数据集，并将特征存储在 X 中，将目标标签存储在 y 中。
使用 train_test_split 函数将数据集分为训练集（80%）和测试集（20%）。
创建一个随机森林分类器 rf_classifier，并设置参数，如树的数量（n_estimators）和随机种子（random_state）。
在训练集上使用 fit 方法拟合随机森林分类器。
使用训练好的模型对测试集进行预测。
使用 accuracy_score 函数计算分类准确率，并将结果打印出来。

这个示例演示了如何使用集成算法中的随机森林来解决分类问题。你可以根据自己的数据和问题选择不同的集成方法，例如 AdaBoost、Gradient Boosting 等，以提高模型的性能。

无心♧

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
机器学习----模型及算法03

集成算法是通过聚合多个分类器的预测来提高分类准确率。集成算法由训练数据构建一组基分类器，然后通过对每个基分类器的预测进行投票来进行分类。模型及算法作用基本思想优点缺点集成算法可用于分类问题，也可用于回归问题通过聚合多个分类器的预测来提高分类准确率具有较高的准确率模型的训练过程比较复杂，效率不是很高。
复制链接

扫一扫