周志华《机器学习》同步学习笔记 ——第八章 集成学习

8.1 个体与集成

集体学习(多分类器系统/基于委员会的学习):生成一组个体学习器并将它们结合起来。
“同质”集成:只包含同种类型的个体学习器(例如BP、决策树),对应基学习器、基学习算法。
“同质”集成:包含不同类型的个体学习器,对应组件学习器。

集成学习可得到比单一学习器更好的泛化性能,尤其是弱学习器:泛化性能略大于50%
在分类器的错误率相互独立的前提下集成的错误率:(Hoeffding不等式)在这里插入图片描述
随着个体分类器数目T增大,集成错误率下降。
集成学习研究的核心产生并结合“好而不同”的个体学习器
分成两大类:

  1. 个体学习器之间存在强依赖关系,必须串行生成 如 Boosting
  2. 个体学习器不存在强依赖关系,可以并行生成 如 Bagging、随机森林

8.2 Boosting

工作机制:在这里插入图片描述
代表算法:AdaBoost
在这里插入图片描述
详细总结:https://www.cnblogs.com/pinard/p/6133937.html?utm_source=tuicool&utm_medium=referral

8.3 Bagging与随机森林

为了更好的泛化性能,个体学习器应尽可能独立且不能太差。因此可以考虑使用相互有交叠的采样子集。

Bagging

工作机制:先用自助采样法(对给定包含m个样本的数据集,每次选取一个样本并放回,重复m次)采样出T个含m个训练样本的采样集,对每个样本集训练处一个基学习器,再将这些学习器结合。
分类任务用简单投票法,回归任务用简单平均法。
在这里插入图片描述
优点:复杂度低,仅比只用基学习算法多了一个采样和投票环节,能直接用于分类、回归,自主采样剩余样本可用于对泛化性能的外包估计↓

在这里插入图片描述
从偏差-方差分解的角度看,Bagging主要关注降低方差,因此它在不剪枝决策树、神经网络等易受样本扰动的学习器上效果更明显。

随机森林 (Random Forest)

随机森林是Bagging的一个扩展变体,是以决策树为及学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引入随机属性选择。具体来说,传统决策树在选择划分属性时是在当前结点的属性集合(假定有 d d d个属性)中选择一个最优属性;而在RF 中,对基决策树的每个结点,先从该结点的属性集合中随机选择一个包含k个属性的子集,然后再从这个子集中选择一个最优属性用于划分. 这里的参数k 控制了随机性的引入程度;若令 k = d k=d k=d, 则基决策树的构建与传统决策树相同;若令 k = 1 k = 1 k=1, 则是随机选择一个属性用于划分; 一般情况下,推荐值 k = l o g 2 d k=log_2{d} k=log2d

虽然简单、容易实现、计算开销小,但是因为其中基学习器不仅受到样本扰动,也受到属性扰动,使得其泛化性能进一步提升。

8.4 结合策略

可能从三个方面带来好处:
1. 减小因使用单学习器而误选而导致的泛化性能不佳的风险
2. 降低陷入糟糕局部极小点的风险
3.使得相应架设空间扩大,可能削的更好的近视。
在这里插入图片描述

8.4.1 平均法

对数值型输出最常见的结合策略

简单平均法

H ( x ) = 1 T ∑ i = 1 T h i ( x ) H\left (\boldsymbol{x}\right ) = \frac{1}{T}\sum_{i=1}^{T} h_{i}\left (\boldsymbol{x} \right ) H(x)=T1i=1Thi(x)

加权平均法

H ( x ) = ∑ i = 1 T ω i h i ( x ) H\left (\boldsymbol{x}\right ) = \sum_{i=1}^{T}\omega_i h_{i}\left (\boldsymbol{x} \right ) H(x)=i=1Tωihi(x)
其中 ω i \omega_i ωi是个体学习器的权重,一般是从训练数据中习得。在个体学习器性能相差较大时宜使用加权平均法,而在个体学习器性能相近时宜使用简单平均法

8.4.2 投票法

对分类任务最常见的结合策略

绝对多数投票法

某标记得票过半数则预测为该标记
在这里插入图片描述

相对多数投票法

预测为得票最多的标记,若多个标记最高票,从中随机
在这里插入图片描述

加权投票法

在这里插入图片描述

应注意:
在这里插入图片描述

8.4.3 学习法

当训练数据很多,可以通过另一个学习器来进行结合。Stacking是典型代表,即将训练集弱学习器的学习结果作为输入,将训练集的输出作为输出,重新训练一个学习器来得到最终结果。
在这种情况下,我们将弱学习器称为初级学习器,将用于结合的学习器称为次级学习器。对于测试集,我们首先用初级学习器(使用不同学习算法)预测一次,得到次级学习器的输入样本,再用次级学习器预测一次,得到最终的预测结果。
在这里插入图片描述

8.5 多样性

8.5.1 误差-分歧分解

个体学习器应“好而不同”,对于回归学习定义学习器 h i h_{i} hi的分歧为 A ( h i ∣ x ) = ( h i ( x ) − H ( x ) ) 2 A\left ( h_{i}\mid \boldsymbol{x}^{} \right )=\left (h_{i}\left ( \boldsymbol{x} \right )-H\left ( \boldsymbol{x} \right ) \right )^{2} A(hix)=(hi(x)H(x))2
集成分歧:
在这里插入图片描述
在这里插入图片描述

8.5.2 多样性度量

用于度量集成中个体分类器的多样性,考虑个体分类器的两两相似性。
两个分类器的预测结果列联表

h i = + 1 h_i=+1 hi=+1 h i = − 1 h_i=-1 hi=1
h j = + 1 h_j=+1 hj=+1ac
h j = + 1 h_j=+1 hj=+1bd

a,b,c,d为对应预测的样本数目。
常见的多样性度量:
在这里插入图片描述

8.5.3 多样性增强

引入随机性

数据样本扰动

产生不同的数据子集,一般基于采样法。
对决策树、BP等不稳定基学习器比较有效,对稳定基学习器(如线性学习器、支持向量机、朴素贝叶斯、K近邻学习器)不太适合。

输入属性扰动

用不同的属性子集来进行训练。比如随机子空间:从初始属性及抽取若干属性子集,对每个属性子集训练一个基学习器。适合包含大量冗余属性的数据。
在这里插入图片描述

输出表示扰动

对输出表示进行操纵,如翻转法:随机改变一些训练样本的标记;输出调制法:将分类输出转化为回归输出;ECOC法:用纠错输出吗将分类任务拆解为一系列二分任务。

算法参数扰动

随机设置不同的参数。
负相关法:通过正则化项来强制个体神经网络使用不同的参数。
对参数较少的,可将其学习过程中某些环节用其他类似方法代替来进行扰动。

很高兴听到你正在学习机器学习》这本经典的教材,下面我为你提供第十四章概率图模型的Python实现学习笔记。 ## 1. 朴素贝叶斯分类器 ### 1.1 数据准备 在本章中,我们将使用著名的鸢尾花数据集进行分类。首先,我们可以从sklearn库中导入该数据集。 ```python from sklearn.datasets import load_iris iris = load_iris() X = iris.data y = iris.target ``` ### 1.2 朴素贝叶斯分类器实现 接下来,我们可以使用sklearn库中的朴素贝叶斯分类器进行分类,具体实现如下: ```python from sklearn.naive_bayes import GaussianNB from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42) gnb = GaussianNB() gnb.fit(X_train, y_train) y_pred = gnb.predict(X_test) accuracy = accuracy_score(y_test, y_pred) print('Accuracy:', accuracy) ``` ### 1.3 结果分析 运行上述代码后,我们可以得到该模型在测试集上的准确率,结果如下所示: ``` Accuracy: 1.0 ``` 可以看出,该模型在鸢尾花数据集上表现出色,准确率达到了100%。 ## 2. 隐马尔可夫模型 ### 2.1 数据准备 在本节中,我们将使用一个简单的例子来介绍隐马尔可夫模型的实现。假设我们有一个长度为100的序列,每个位置上的值都是0或1,其中0和1出现的概率分别为0.6和0.4。我们可以使用numpy库生成这个序列。 ```python import numpy as np np.random.seed(42) sequence = np.random.choice([0, 1], size=100, p=[0.6, 0.4]) ``` ### 2.2 隐马尔可夫模型实现 接下来,我们可以使用hmmlearn库中的隐马尔可夫模型进行序列建模,具体实现如下: ```python from hmmlearn import hmm model = hmm.MultinomialHMM(n_components=2) model.fit(sequence.reshape(-1, 1)) logprob, states = model.decode(sequence.reshape(-1, 1)) print('Sequence:', sequence) print('States:', states) ``` ### 2.3 结果分析 运行上述代码后,我们可以得到该模型对序列的建模结果,结果如下所示: ``` Sequence: [0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0] States: [1 1 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1] ``` 可以看出,模型对序列进行了建模,并输出了每个位置上的状态,其中0表示“假”,1表示“真”。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值